Solon v3.9.3

chat - 多模态(理解)图片、声音、视频

</> markdown
2026年2月13日 下午2:55:37

理解(或感知)多媒体内容的能力,需要大模型支持。

1、理解图片(图像)

就是把图片和提示语一起提交给大模型。需要用到 ImageBlock 接口

接口描述
ImageBlock.ofUrl(String)根据 url 创建
ImageBlock.ofBase64(String)根据 base64 String 创建
ImageBlock.ofBase64(byte[])根据 base64 byte[] 创建

示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):

chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?",  ImageBlock.ofUrl("http://.../demo.jpg")))
            .call();

2、理解声音(音频)

就是把声音和提示语一起提交给大模型。需要用到 AudioBlock 接口

接口描述
AudioBlock.ofUrl(String)根据 url 创建

示例:

chatModel.prompt(ChatMessage.ofUser("这里讲了什么?",  AudioBlock.ofUrl("http://.../demo.mp3")))
            .call();

3、理解视频

就是把视频和提示语一起提交给大模型。需要用到 VideoBlock 接口

接口描述
VideoBlock.ofUrl(String)根据 url 创建

示例:

chatModel.prompt(ChatMessage.ofUser("这里讲了什么?",  VideoBlock.ofUrl("http://.../demo.jpg")))
            .call();