三花快讯

搜索...

一觉醒来看三花,分分钟 Get 全网 AI 动态

2025, 1月14日

1月14日

micro_diffusion 是一个开源方法,旨在通过充分利用每一刀从零开始训练大规模扩散模型。

任何人只需使用 8 个 H100 GPU,在短短 2.5 天内,就能以 1890 美元的超低成本,用 3700 万张公开可用的真实和合成图像,训练出一个 11.6 亿参数的稀疏 Transformer。

这比 Stable Diffusion 的训练成本低 118 倍!不过,从论文的基准测试来看,模型生成的图片质量仅略优于 SD1.5,放到现在可能有点不够看。

Mistral 最新推出的编程模型Codestral 25.01 现已登陆 Continue.dev 平台。开发者可以通过 VSCode 和 JetBrains 插件试用该模型。

Codestral 25.01 在同参数量模型中表现突出,目前在 LMsys Copilot 竞技场中稳居榜首。

2025, 1月13日

1月13日

FaceLift 是 Adobe 最新发布的一项技术,仅需一张人脸照片,就能快速生成高保真的 3D 头部模型。

该技术首先利用扩散模型从单张脸部照片生成侧面和背面的视图,然后通过 GS-LRM 重建器生成 3D 高斯样条表示,实现全头新视角的合成。

此外,FaceLift 还能处理视频输入,进行 4D 合成,并与 2D 动画技术结合,实现 3D 面部动画。

从官网的一些交互式案例来看,效果还不错,不过不能放大看,恐怖谷效应拉满了。目前这项技术还没有开源,关注我为你持续跟进。

Grok iOS App 现已上线美区 App Store,支持生成图像和对话。用户需要使用 X 账号登录,以实时访问 X 和 Web 数据。

系统版本要求较高,需更新至 iOS 17 才能安装,如果你在用巨魔啥的就无缘了。安卓版本即将推出。

Qwen Chat 是阿里通义团队近日上线的一款基于开源的 Open WebUI 的 WebUI,支持 Qwen 全系列模型。

模型包括 Qwen2.5-Plus 对话模型、QwQ 和 QVQ 等推理模型,以及 Qwen2.5-Coder-32B-Instruct 编程模型。

Qwen Chat 支持同时对比多个模型,还即将推出网络搜索、图像生成和语音模式,值得期待。

Kling APP 现已正式上架美区 App Store,安卓版本也即将上线。

简单体验了一下,和 Web 版本差不多,支持 kolors 1.5 生成图片和 kling 1.6 生成图生视频、文生视频。

FitDiT 是一个开源的 AI 虚拟试穿模型,其最大的特色是支持用户选择更换上衣、下衣或整套服装。佬友们可以在线试用一下。

不过我用下来感觉整体效果不如之前介绍的 Leffa。Leffa 前几天还更新了一波,在 A100 上生成只需 6 秒,速度相当快。

2025, 1月10日

1月10日

Hallo3 是复旦大学和百度联合开源的数字人头(肖像动画)技术,能让静态肖像在各种场景下动起来,而且动作自然、画面逼真。它不仅能处理正面肖像,还能应对各种角度和姿态,甚至能让肖像与周围物体互动。

与之前的 Hallo2 相比,Hallo3 在生成动态场景和沉浸式背景方面有了显著提升,让肖像动画不再局限于简单的表情变化,而是能将角色也融入到场景中。

Dify Marketplace 发布了 v1.0.0-beta 版本,带来了全新的插件系统。现在,模型和工具等都成为了插件系统的一部分,用户可以更方便地扩展和定制功能。好久没关注 Dify 了,终于快要正式版了!

2025, 1月9日

1月9日

Gazelle 是一个开源的多人注视检测技术,能够精准地检测人们的目光方向和注视对象。

现在,Gazelle 的在线版本已经发布,社区提供了两个不同的演示:gaze-demoGaze-LLE-demo