Gradio 和 LLM 代理 🤝

大型语言模型（LLM）令人印象深刻，但如果我们能赋予它们完成专业任务的技能，它们会变得更加强大。

gradio_tools 库可以将任何 Gradio 应用转变为工具，供代理使用来完成其任务。例如，LLM 可以使用 Gradio 工具转录它在网上找到的语音录音，然后为你总结；或者它可以使用另一个 Gradio 工具对你 Google 云端硬盘上的文档进行 OCR，然后回答有关该文档的问题。

本指南将向你展示如何使用 gradio_tools 赋予你的 LLM 代理访问世界各地尖端 Gradio 应用的能力。尽管 gradio_tools 兼容多种代理框架，但本指南中我们将重点介绍 Langchain 代理。

一些背景

什么是代理？

LangChain 代理是一个大型语言模型（LLM），它接受用户输入并根据使用其可用的众多工具之一来报告输出。

什么是 Gradio？

Gradio 是构建机器学习 Web 应用并与世界分享的事实标准框架——全部只需 Python！🐍

gradio_tools - 端到端示例

要开始使用 gradio_tools，你只需导入并初始化你的工具，然后将它们传递给 langchain 代理！

在下面的示例中，我们导入 StableDiffusionPromptGeneratorTool 来为 Stable Diffusion 创建一个好的提示，导入 StableDiffusionTool 来使用我们改进的提示创建图像，导入 ImageCaptioningTool 来为生成的图像添加标题，以及导入 TextToVideoTool 来从提示创建视频。

然后我们告诉代理创建一个狗骑滑板的图像，但请提前改进我们的提示。我们还要求它为生成的图像添加标题并创建一个视频。代理可以在我们不明确告知的情况下决定使用哪个工具。

import os

if not os.getenv("OPENAI_API_KEY"):
    raise ValueError("OPENAI_API_KEY must be set")

from langchain.agents import initialize_agent
from langchain.llms import OpenAI
from gradio_tools import (StableDiffusionTool, ImageCaptioningTool, StableDiffusionPromptGeneratorTool,
                          TextToVideoTool)

from langchain.memory import ConversationBufferMemory

llm = OpenAI(temperature=0)
memory = ConversationBufferMemory(memory_key="chat_history")
tools = [StableDiffusionTool().langchain, ImageCaptioningTool().langchain,
         StableDiffusionPromptGeneratorTool().langchain, TextToVideoTool().langchain]


agent = initialize_agent(tools, llm, memory=memory, agent="conversational-react-description", verbose=True)
output = agent.run(input=("Please create a photo of a dog riding a skateboard "
                          "but improve my prompt prior to using an image generator."
                          "Please caption the generated image and create a video for it using the improved prompt."))

你会注意到我们正在使用 gradio_tools 中附带的一些预构建工具。有关 gradio_tools 中附带的所有工具的完整列表，请参阅此文档。如果你想使用当前不在 gradio_tools 中的工具，添加你自己的工具非常简单。下一节将介绍这一点。

gradio_tools - 创建你自己的工具

核心抽象是 GradioTool，它允许你为你的 LLM 定义一个新工具，只要你实现一个标准接口

class GradioTool(BaseTool):

    def __init__(self, name: str, description: str, src: str) -> None:

    @abstractmethod
    def create_job(self, query: str) -> Job:
        pass

    @abstractmethod
    def postprocess(self, output: Tuple[Any] | Any) -> str:
        pass

要求如下：

你的工具的名称
你的工具的描述。这至关重要！代理根据其描述决定使用哪个工具。请务必精确，并确保包含工具输入和输出的示例。
Gradio 应用的 URL 或空间 ID，例如 freddyaboulton/calculator。基于此值，gradio_tool 将创建一个 Gradio 客户端实例，通过 API 查询上游应用程序。如果你不熟悉 Gradio 客户端库，请务必点击链接了解更多信息。
create_job - 给定一个字符串，此方法应解析该字符串并从客户端返回一个作业。大多数情况下，这就像将字符串传递给客户端的 submit 函数一样简单。有关创建作业的更多信息，请参见此处。
postprocess - 给定作业结果，将其转换为 LLM 可以显示给用户的字符串。
可选 - 某些库，例如 MiniChain，可能需要有关工具使用的底层 Gradio 输入和输出类型的信息。默认情况下，这将返回 gr.Textbox()，但如果你想提供更准确的信息，请实现工具的 _block_input(self, gr) 和 _block_output(self, gr) 方法。gr 变量是 Gradio 模块（import gradio as gr 的结果）。它将由 GradiTool 父类自动导入并传递给 _block_input 和 _block_output 方法。

就是这样！

创建工具后，请向 gradio_tools 仓库提交拉取请求！我们欢迎所有贡献。

工具示例 - Stable Diffusion

以下是 StableDiffusion 工具的代码示例：

from gradio_tool import GradioTool
import os

class StableDiffusionTool(GradioTool):
    """Tool for calling stable diffusion from llm"""

    def __init__(
        self,
        name="StableDiffusion",
        description=(
            "An image generator. Use this to generate images based on "
            "text input. Input should be a description of what the image should "
            "look like. The output will be a path to an image file."
        ),
        src="gradio-client-demos/stable-diffusion",
        hf_token=None,
    ) -> None:
        super().__init__(name, description, src, hf_token)

    def create_job(self, query: str) -> Job:
        return self.client.submit(query, "", 9, fn_index=1)

    def postprocess(self, output: str) -> str:
        return [os.path.join(output, i) for i in os.listdir(output) if not i.endswith("json")][0]

    def _block_input(self, gr) -> "gr.components.Component":
        return gr.Textbox()

    def _block_output(self, gr) -> "gr.components.Component":
        return gr.Image()

关于此实现的一些注意事项：

GradioTool 的所有实例都有一个名为 client 的属性，它指向底层的 Gradio 客户端。这是你在 create_job 方法中应该使用的。
create_job 只是将查询字符串和一些硬编码的参数（例如，负面提示字符串和指导规模）传递给客户端的 submit 函数。我们可以在后续版本中修改工具以也接受输入字符串中的这些值。
postprocess 方法简单地从 Stable Diffusion 空间创建的图像库中返回第一张图像。我们使用 os 模块来获取图像的完整路径。

总结

你现在知道如何通过野外运行的数千个 Gradio 空间来扩展你的 LLM 的能力了！再次强调，我们欢迎对 gradio_tools 库的任何贡献。我们很高兴看到你们构建的所有工具！