机器之心编辑部
智谱AI把自研打造的大模型给开源了。
海内视频天生领域越来越卷了。刚刚,智谱 AI 宣告将与「清影」同源的视频天生模型 ——CogVideoX 开源。短短几个小时狂揽 4k 星标。
代码仓库:https://github.com/THUDM/CogVideo
模型下载:https://huggingface.co/THUDM/CogVideoX-2b
技能报告:https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf
7 月 26 日,智谱 AI 正式发布视频天生产品「清影」,得到大家广泛好评。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能天生 1440x960 清晰度的高精度视频。
官宣即日起,清影上线清言 App,所有用户都可以全方位体验。想要考试测验的小伙伴可以去「智谱清言」上体验「清影」生视频的能力。
「清影」的涌现被誉为是海内首个人人可用的 Sora。发布 6 天,「清影」天生视频数就打破百万量级。
PC 端访问链接:https://chatglm.cn/
移动端访问链接:https://chatglm.cn/download?fr=web_home
为何智谱 AI 开源模型如此爆火?要知道虽然现在视频天生技能正逐步走向成熟,然而,仍未有一个开源的视频天生模型,能够知足商业级运用的哀求。大家熟习的 Sora、Gen-3 等都是闭源的。CogVideoX 的开源就好比 OpenAI 将 Sora 背后的模型开源,对广大研究者而言,意义重大。
CogVideoX 开源模型包含多个不同尺寸大小的模型,目前智谱 AI 开源 CogVideoX-2B,它在 FP-16 精度下的推理仅需 18GB 显存,微调则只须要 40GB 显存,这意味着单张 4090 显卡即可进行推理,而单张 A6000 显卡即可完成微调。
CogVideoX-2B 的提示词上限为 226 个 token,视频长度为 6 秒,帧率为 8 帧 / 秒,视频分辨率为 720480。智谱 AI 为视频质量的提升预留了广阔的空间,期待开拓者们在提示词优化、视频长度、帧率、分辨率、场景微调以及环绕视频的各种功能开拓长进献开源力量。
性能更强参数量更大的模型正在路上,敬请关注与期待。
模型
VAE
视频数据因包含空间和韶光信息,其数据量和打算包袱远超图像数据。为应对此寻衅,智谱提出了基于 3D 变分自编码器(3D VAE)的视频压缩方法。3D VAE 通过三维卷积同时压缩视频的空间和韶光维度,实现了更高的压缩率和更好的重修质量。
模型构造包括编码器、解码器和潜在空间正则化器,通过四个阶段的下采样和上采样实现压缩。韶光因果卷积确保了信息的因果性,减少了通信开销。智谱采取高下文并行技能以适应大规模视频处理。
实验中,智谱 AI 创造大分辨率编码易于泛化,而增加帧数则寻衅较大。因此,智谱分两阶段演习模型:首先在较低帧率和小批量上演习,然后通过高下文并行在更高帧率上进行微调。演习丢失函数结合了 L2 丢失、LPIPS 感知丢失和 3D 判别器的 GAN 丢失。
专家 Transformer
智谱 AI 利用 VAE 的编码器将视频压缩至潜在空间,然后将潜在空间分割成块并展开发展的序列嵌入 z_vision。同时,智谱 AI 利用 T5,将文本输入编码为文本嵌入 z_text,然后将 z_text 和 z_vision 沿序列维度拼接。拼接后的嵌入被送入专家 Transformer 块堆栈中处理。末了,反向拼接嵌入来恢复原始潜在空间形状,并利用 VAE 进行解码以重修视频。
Data
视频天生模型演习需筛选高质量视频数据,以学习真实天下动态。视频可能因人工编辑或拍摄问题而不准确。智谱 AI 开拓了负面标签来识别和打消低质量视频,如过度编辑、运动不连贯、质量低下、讲座式、文本主导和屏幕噪音视频。通过 video-llama 演习的过滤器,智谱 AI 标注并筛选了 20,000 个视频数据点。同时,打算光流和美学分数,动态调度阈值,确保天生视频的质量。
视频数据常日没有文本描述,须要转换为文本描述以供文本到视频模型演习。现有的视频字幕数据集字幕较短,无法全面描述视频内容。智谱 AI 提出了一种从图像字幕天生视频字幕的管道,并微调端到真个视频字幕模型以得到更密集的字幕。这种方法通过 Panda70M 模型天生简短字幕,利用 CogView3 模型天生密集图像字幕,然后利用 GPT-4 模型总结天生终极的短视频。智谱 AI 还微调了一个基于 CogVLM2-Video 和 Llama 3 的 CogVLM2-Caption 模型,利用密集字幕数据进行演习,以加速视频字幕天生过程。
性能
为了评估文本到视频天生的质量,智谱 AI 利用了 VBench 中的多个指标,如人类动作、场景、动态程度等。智谱 AI 还利用了两个额外的视频评估工具:Devil 中的 Dynamic Quality 和 Chrono-Magic 中的 GPT4o-MT Score,这些工具专注于视频的动态特性。如下表所示。
智谱 AI 已履历证了 scaling law 在视频天生方面的有效性,未来会在不断 scale up 数据规模和模型规模的同时,探究更具打破式创新的新型模型架构、更高效地压缩视频信息、更充分地领悟文本和视频内容。
末了,我们看看「清影」的效果。
提示语:「一艘精细的木制玩具船,桅杆和船帆雕刻精美,平稳地滑过一块模拟海浪的蓝色毛绒地毯。船体漆成浓郁的棕色,有小窗户。地毯优柔而有质感,供应了完美的背景,类似于广阔的海洋。船周围还有各种玩具和儿童用品,暗示着一个好玩的环境。这个场景捕捉到了童年的纯洁和想象力,玩具船的旅程象征着在异想天开的室底细况中无尽的冒险。」
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&tempkey=MTI4MV9icDJxOS9yRm16SlNXUzh3U1ZFd2U1bF9xU0FfUnZleXZSUHdwM0oxUUFSREQ0TkxENmpJQ1lBRDVVTWllTXZsbTNtZVpFazhwVUxXUE5CdFlGRVliNEhobkpsbkZFTG9qVTFIMWk3Rm5BUTIxNlZObFJBLV9MckFONi1zWjlSQnJDa3dRdjRjbUlPV0taNGtja2lQcmcwbnRFVmlZbXZDOGVfVlB3fn4%3D&chksm=84e43c44b393b552bd137d4389cbe3553f655259c764aba0b53de829eb1b417f1ea5d78b4925&token=1689653070&lang=zh_CN#rd
提示语:「镜头跟随一辆装着玄色车顶行李架的白色老式 SUV,它在陡峭的山坡上沿着松树环抱的土路加速行驶,轮胎扬起尘土,阳光照射在沿着土路飞驰的 SUV 身上,为场景投下温暖的光芒。土路缓缓波折向远方延伸,看不到其他汽车或车辆。道路两旁的树木都是红杉,点缀着一片片绿植。从后面看,汽车轻松地顺着弯道行驶,让人以为它正在波折的地形上行驶。土路周围是陡峭的山丘和山脉,头顶是湛蓝的天空,上面飘着薄薄的云彩。」
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&tempkey=MTI4MV9icDJxOS9yRm16SlNXUzh3U1ZFd2U1bF9xU0FfUnZleXZSUHdwM0oxUUFSREQ0TkxENmpJQ1lBRDVVTWllTXZsbTNtZVpFazhwVUxXUE5CdFlGRVliNEhobkpsbkZFTG9qVTFIMWk3Rm5BUTIxNlZObFJBLV9MckFONi1zWjlSQnJDa3dRdjRjbUlPV0taNGtja2lQcmcwbnRFVmlZbXZDOGVfVlB3fn4%3D&chksm=84e43c44b393b552bd137d4389cbe3553f655259c764aba0b53de829eb1b417f1ea5d78b4925&token=1689653070&lang=zh_CN#rd
提示语:「一片白雪皑皑的森林景不雅观,一条土路穿过个中。道路两旁是被白雪覆盖的树木,地面也被白雪覆盖。阳光残酷,营造出通亮而宁静的氛围。道路上空无一人,视频中看不到任何人或动物。视频的风格是自然风景拍摄,重点是白雪皑皑的森林之美和道路的宁静。」
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&tempkey=MTI4MV9icDJxOS9yRm16SlNXUzh3U1ZFd2U1bF9xU0FfUnZleXZSUHdwM0oxUUFSREQ0TkxENmpJQ1lBRDVVTWllTXZsbTNtZVpFazhwVUxXUE5CdFlGRVliNEhobkpsbkZFTG9qVTFIMWk3Rm5BUTIxNlZObFJBLV9MckFONi1zWjlSQnJDa3dRdjRjbUlPV0taNGtja2lQcmcwbnRFVmlZbXZDOGVfVlB3fn4%3D&chksm=84e43c44b393b552bd137d4389cbe3553f655259c764aba0b53de829eb1b417f1ea5d78b4925&token=1689653070&lang=zh_CN#rd
提示语:「鸡肉和青椒烤肉串在烧烤架上烧烤的特写。浅焦和淡烟。色彩鲜艳」
视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&tempkey=MTI4MV9icDJxOS9yRm16SlNXUzh3U1ZFd2U1bF9xU0FfUnZleXZSUHdwM0oxUUFSREQ0TkxENmpJQ1lBRDVVTWllTXZsbTNtZVpFazhwVUxXUE5CdFlGRVliNEhobkpsbkZFTG9qVTFIMWk3Rm5BUTIxNlZObFJBLV9MckFONi1zWjlSQnJDa3dRdjRjbUlPV0taNGtja2lQcmcwbnRFVmlZbXZDOGVfVlB3fn4%3D&chksm=84e43c44b393b552bd137d4389cbe3553f655259c764aba0b53de829eb1b417f1ea5d78b4925&token=1689653070&lang=zh_CN#rd