三花快讯 · 2024, 11月14日

DeepSeek 开源 JanusFlow:超越 LLaVA-v1.5 的多模态模型

生成分辨率高达 384×384 的图像

JanusFlow 开源了 Janus 系列中的 JanusFlow,这是一个统一的多模态理解和生成模型,能够同时处理图像理解和生成任务。在视觉理解基准测试中,JanusFlow 的表现超越了 LLaVA-v1.5 和 Qwen-VL-Chat,并且能够生成分辨率为 384×384 的图像。坐等集成到 API,俺充了 50 用了半年了。

商业转载请联系三花微信公众号获得授权,非商业转载请注明本文出处及文章链接,您可以自由地在任何媒体以任何形式复制和分发作品,也可以修改和创作,但是分发衍生作品时必须采用相同的许可协议。

本文采用 CC BY-NC-SA 4.0 - 非商业性使用 - 相同方式共享 4.0 国际 进行许可。