Trellis 2:在线运行微软开源图生 3D 模型
TRELLIS.2 把一张照片变成带完整 PBR 材质的 3D 资产——连透明度都能建模。跳过 Linux 加 24GB 显卡的部署门槛,浏览器里直接跑。
TRELLIS.2——通常写作 Trellis 2——是一个 40 亿参数的图生 3D 模型,2025 年 12 月由微软研究院联合清华大学和中国科学技术大学的研究者发布。它的核心发明是名为 O-Voxel 的无场稀疏体素表示,让单个模型能生成 3D 生成领域历来的"禁区":布料和树叶这样的开放表面、非流形几何、封闭的内部结构,以及包含真透明的完整 PBR 材质。在本页,你可以在线运行 Trellis 2,一张照片直出 GLB——不用 Linux 主机,不用 24GB 显卡,不用配任何环境。
为什么 Trellis 2 几乎一夜之间刷屏 3D 圈
这个量级的开源发布非常罕见,数据立刻说明了一切:发布后数月内,TRELLIS.2-4B 的权重在 Hugging Face 上以每月超百万次的速度被下载,上百个公开 Space 基于它搭建,ComfyUI 生态几天内就把它接进了节点工作流。社区的共识也迅速收敛成两条——MIT 协议让它真正可以放心商用和二次开发,而出图质量跨过了从前只有闭源商业模型才够得着的那条线。
不过这串下载数字里藏着一个扎心的事实。官方配置要求——Linux、24GB 显存起步的 NVIDIA 显卡、CUDA 12.4——意味着大多数为 Trellis 2 兴奋的人,根本没法在自己的机器上跑它。"人人可用的开源"和"少数人跑得动的现实"之间的落差,正是在线托管要填的坑,也是本页存在的理由。
对比初代 TRELLIS:变化在哪
初代 TRELLIS 是微软的 CVPR Spotlight 论文,把物体编码为绑定在场表示上的结构化潜变量。这是一项自带天花板的突破:基于场的方法默认表面是封闭的,于是布料、植物、中空内腔和一切非流形结构,要么直接失败,要么在转换中被悄悄"灌实"。
Trellis 2 不是把天花板抬高,而是直接拆掉:
- O-Voxel 取代场绑定潜变量。 几何和外观直接存在约 16 倍空间压缩的稀疏体素结构里——流程中不再有有损的"场转网格"环节。
- 生成器扩到 40 亿参数的流匹配 Transformer,相比初代是一次实打实的容量跃迁。
- 外观升级成完整 PBR。 基础色、粗糙度、金属度,外加主流生成器里独一份的——不透明度。透明是被建模出来的,不是被画出来的。
- 分辨率变成三档可调:512³、1024³、1536³,告别一刀切输出。
有一个流传很广的误会值得在这里明确纠正:多图条件输入是初代 TRELLIS 的功能,很多文章想当然地套在了续作上。已发布的 Trellis 2 管线是单图输入。如果物体的隐藏面对你最关键,本站的混元 3D 3.1 更对口——它把单张输入图送进内部 8 视角重建管线,没拍到的表面还原得更稳。
别的生成器拒收的几何体
给 Trellis 2 做最诚实的介绍,就是列一遍你大概率见过其他模型搞砸的东西:一件夹克——有里有面的开放表面;一盆绿植——几十片带 Alpha 蒙版的薄叶;一个玻璃瓶——透明度套着内部结构;一台机械组件——相机没拍到、但结构上必然存在的内腔。
水密优先的模型处理它们的方式是"封死":夹克变成夹克形状的壳,叶子糊成绿团,瓶子变得不透光。Trellis 2 的表示方式根本不要求表面包裹体积,所以它照物体本来的样子复现。如果你的资产库偏有机、植物、服饰或透明物,这一条性质比参数表上其他所有数字加起来都重。
三档分辨率——以及"快"字背后的诚实账目
微软公布的基准很亮眼:H100 上,原始推理 512³ 约 3 秒、1024³ 约 17 秒、1536³ 约 60 秒,形状和材质两个阶段合计。这些数字是真的,但那是旗舰数据中心显卡上的裸机成绩——不是任何在线服务算上排队、解码和导出之后的端到端体验。在 AI 3D 上,一个 Trellis 2 任务的典型完成窗口是 2-6 分钟。两组数字都摆出来,你才知道买到的是什么:按诚实口径计,它依然是当前最快的 3D 生成器之一。
档位体系鼓励两遍式习惯:512³ 先打草稿,确认图片重建得动;定稿后换 1536³ 重跑,主角资产把纹理尺寸提到 4096。多边形缩减旋钮补全了参数面板——从网页查看器的轻量预算到雕刻级密度,都能对准。
需要提前规划的边界
小孔洞会出现。 官方模型卡直说了:生成的网格可能含小孔洞,需要水密的场合请做后处理。偶尔打印,一次网格修复就够;打印是主业的话,直接换混元 3D 3.1 生成——在那边水密是设计目标,不是修复步骤。
一张图只有一个真相视角。 照片没拍到的部分,模型靠学到的先验去推。推得通常不错,但物体背面那个独特的 Logo 不会凭空长出来——选信息量最大的角度拍,或者改用混元——它的内部 8 视角管线还原隐藏面更稳。
没有文字模式。 Trellis 2 不接提示词。实用的桥接:先用 AI 图片生成器出一张参考图,目检通过再来转 3D。路径多一步,控制力反而多一截。
Trellis 2 vs 初代 TRELLIS vs 混元 3D 3.1
| TRELLIS(初代) | Trellis 2 | 混元 3D 3.1 | |
|---|---|---|---|
| 表示方式 | 基于场的结构化潜变量 | O-Voxel,无场 | 多阶段重建 |
| 拓扑 | 封闭表面 | 任意——开放、非流形、内部结构 | 设计即水密 |
| 材质 | 以颜色为主 | 完整 PBR 含透明 | 最高 4K PBR |
| 输入 | 图片,含多图 | 单张图片 | 文字或单张图片 |
| 协议 / 获取 | MIT,开源 | MIT,开源——硬件门槛高 | 托管平台模型 |
对前代,Trellis 2 是一场干脆利落的代际胜利——拓扑更自由、材质通道更全、分辨率更高。对混元 3D 3.1,则是一次真正的路线分岔:一边是表示自由度和速度,一边是管线就绪的水密纪律和隐藏面保真。好在两个都在同一个生成器页面的下拉框里,这场对比从"二选一的采购决策"变成了"逐个资产随手切换"。
输入手册:一张照片定生死
对单图模型来说,输入质量不是变量之一——它就是上限本身。五条规则吃掉平庸和出色之间的大部分差距:用手头分辨率最高的图,照片里没有的细节不会在 3D 里凭空长出来;光要打匀,烤进照片的硬阴影会被当成几何体,浮雕一样刻在表面上;背景保持干净,让分割把精度全花在物体上;物体完整入框——被裁掉的边缘会变成被砍断的几何体;选信息量最大的角度,通常是能同时看到正面和侧面的四分之三视角,而不是一张平直的正面照。
参数侧:迭代用 512³,定稿用 1536³;纹理尺寸跟镜头距离走——背景道具 1024、特写 4096;多边形缩减按引擎预算设,不是无脑拉满。
三步,从照片到 GLB
打开生成器选 Trellis 2。上传图片——JPG 或 PNG,最大 10MB——设好分辨率、纹理尺寸和面数目标。生成后在可交互查看器里转一圈,导出带完整 PBR 材质(含透明)的 GLB,直接进 Blender、Unity、Unreal 或网页。