Solon v3.10.0

chat - 多模态(理解)图片、声音、视频

</> markdown
2026年3月18日 上午10:53:23

理解(或感知)多媒体内容的能力,需要大模型支持。

重要提醒:用 url 还是 base64,要根据 llm 支持情况选择(不同的 llm 不同)。

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 ImageBlock 接口

接口描述
ImageBlock.ofUrl(String)根据 url 创建
ImageBlock.ofBase64(String)根据 base64 String 创建
ImageBlock.ofBase64(byte[])根据 base64 byte[] 创建

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?",  ImageBlock.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 AudioBlock 接口

接口描述
AudioBlock.ofUrl(String)根据 url 创建

示例:

chatModel.prompt(ChatMessage.ofUser("这里讲了什么?",  AudioBlock.ofUrl("http://.../demo.mp3")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 VideoBlock 接口

接口描述
VideoBlock.ofUrl(String)根据 url 创建

示例:

chatModel.prompt(ChatMessage.ofUser("这里讲了什么?",  VideoBlock.ofUrl("http://.../demo.jpg")))
            .call();