chat - 多模态(理解)图片、声音、视频
2026年2月13日 下午2:55:37
理解(或感知)多媒体内容的能力,需要大模型支持。
1、理解图片(图像)
就是把图片和提示语一起提交给大模型。需要用到 ImageBlock 接口
| 接口 | 描述 |
|---|---|
ImageBlock.ofUrl(String) | 根据 url 创建 |
ImageBlock.ofBase64(String) | 根据 base64 String 创建 |
ImageBlock.ofBase64(byte[]) | 根据 base64 byte[] 创建 |
示例(有些模型需要提交 url ,有些需要提交 b64。按模型要求使用):
chatModel.prompt(ChatMessage.ofUser("这个图上有人像吗?", ImageBlock.ofUrl("http://.../demo.jpg")))
.call();
2、理解声音(音频)
就是把声音和提示语一起提交给大模型。需要用到 AudioBlock 接口
| 接口 | 描述 |
|---|---|
AudioBlock.ofUrl(String) | 根据 url 创建 |
示例:
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", AudioBlock.ofUrl("http://.../demo.mp3")))
.call();
3、理解视频
就是把视频和提示语一起提交给大模型。需要用到 VideoBlock 接口
| 接口 | 描述 |
|---|---|
VideoBlock.ofUrl(String) | 根据 url 创建 |
示例:
chatModel.prompt(ChatMessage.ofUser("这里讲了什么?", VideoBlock.ofUrl("http://.../demo.jpg")))
.call();