首页 / 休闲娱乐 / 我谷歌AI编舞师能听音乐来10种freestyle想看爵士or芭蕾

动作模型

我谷歌AI编舞师能听音乐来10种freestyle想看爵士or芭蕾

不堪一击 2025-02-18 发布在休闲娱乐 0

Transformer又又接新活了——

这次谷歌用它搞了一个会根据音乐舞蹈的AI。

我谷歌AI编舞师能听音乐来10种freestyle想看爵士or芭蕾休闲娱乐

话不多说，先让它给大家来几段freestyle（原视频见文末地址）：

嗯，动作还挺都雅，各种风格也驾驭住了。

看着我都想随着来一段。

你pick哪个？

而这个AI也凭借着对音乐和舞蹈之间的关联的深刻理解，打败了3个同类模型取得SOTA，登上了ICCV 2021。

其余，除了代码开源，研究团队还随之一起公开了一个含有10种类型的3D舞蹈动作数据集。

心动的，搞起来搞起来！

这个freestyle怎么来？

前面咱们不是说，这个AI用了Transformer吗？

但这里的Transformer不是普通的Transformer，它是一个基于完备把稳力机制（Full-Attention）的跨模态Transformer，简称FACT。

为什么要搞这么繁芜？

由于研究职员创造，光用纯挚的Transformer并不能让AI理解音乐和舞蹈之间的干系性。

以是，这个FACT是怎么做的呢？

总的来说，FACT模型采取了独立的动作和音频transformer。

首先输入2秒钟的seed动作序列和一段音频，对其进行编码。

然后将embedding（从语义空间到向量空间的映射）连接起来，送入跨模态transformer学习两种形态的对应关系，并天生n个后续动作序列。

这些序列再被用来进行模型的自监督演习。

个中3个transformer一起学习，采取的是不用预处理和特色提取，直接把原始数据扔进去得到终极结果的端到真个学习办法。

其余便是在自回归框架中进行模型测试，将预期运动作为下一代阶段的输入。

终极，该模型可以逐帧地天生一段（long-range）舞蹈动作。

下图则展示了该模型通过同一段种子动作（嘻哈风格）、不同音乐天生了四种舞蹈作品（霹雳舞、爵士芭蕾、Krump和Middle Hip-hop）。

有没有懂行的点评一下？

而为了让AI天生的舞蹈生动且和音乐风格保持同等，这个模型设计里面有3个关键点：

1、模型内部token可以访问所有输入，因此三个transformer都利用一个完备把稳力mask。
这使得它比传统的因果模型更具表现力。

2、不止预测下一个，该模型还预测N个后续动作。
这有助于模型关注高下文，避免在几个天生步骤后涌现动作不衔接和跑偏的情形。

3、此外，在演习过程的前期还用了一个12层深的跨模态transformer模块来领悟两个embedding（音频和动作）。
研究职员表示，这是演习模型谛听分辨输入音乐的关键。

下面就用数据来看看真实性能。

打败3个SOTA模型

研究职员根据三个指标来评估：

1、动作质量：用FID来打算样本（也便是他们自己发布的那个数据集，后面先容）和天生结果在特色空间之间的间隔。
一共用了40个模型天生的舞蹈序列，每个序列1200帧（20秒）。

FID的几何和动力学特性分别表示为FIDg和FIDk。

2、动作多样性：通过丈量40套天生动作在特色空间中的均匀欧氏间隔（Euclidean distance）得出。

分别用几何特色空间Distg和动力学特色空间k来考验模型天生各种舞蹈动作的能力。

3、动作与音乐的干系性：没有好的已有指标，他们自己提出了一个“节拍对齐分数”来评估输入音乐（音乐节拍）和输出3D动作（运动节拍）之间的关联。

下面是FACT和三种SOTA模型（Li等人的、Dancenet、Dance Revolution）的比拟结果：

可以看到，FACT在三项指标上全部KO了以上三位。

由于Li等人的模型天生的动作不连续，以是它的均匀动力学特色距离异常高，可以忽略。

看了数据，咱们再看个更直不雅观的：

emmm，比较动作灵巧的FACT，其他两位看起来都有点“不太聪明”的亚子……

舞蹈动作数据集AIST++

末了，再来大略先容一下他们自己打造的这个3D舞蹈动作数据集AIST++。

看名字你也创造了，这是基于现有的舞蹈数据集AIST的“加强版”，紧张是在原有根本上加上了3D信息。

终极的AIST++一共包含5.2小时、1408个序列的3D舞蹈动作，超过十种舞蹈类型，包括老派和新派的的霹雳舞、Pop、 Lock、Waack，以及Middle Hip-Hop、LA-style Hip-Hop、House、Krump、街头爵士和爵士芭蕾，每种舞蹈类型又有85%的基本动作和15%的高等动作。

（怎么觉得全是街舞啊？）

每个动作都供应了9个相机视角，下面展示了个中三个。

它可以用来支持以下三种任务：多视角的人体关键点估计；人体动作预测/天生；人体动作和音乐之间的跨模态剖析。

团队先容

一作李瑞龙，UC伯克利一年级博士生，UC伯克利人工智能研究室成员，Facebook Reality Labs学生研究员。

研究方向是打算机视觉和打算机图形学的交叉领域，紧张为通过2D图像信息天生和重修3D天下。

读博之前还在南加州大学视觉与图形实验室做了两年的研究助理。

本科毕业于清华大学物理学和数学专业、硕士毕业于打算机专业，曾在Google Research和字节AI Lab演习。

共同一作Yang Shan，就职于Google Research。

研究方向包括：运用机器学习、多模态感知、3D打算机视觉与物理仿真。

博士毕业于北卡罗来纳大学教堂山分校(UNC，美国8所公立常春藤大学之一)。

David A. Ross，在Google Research领导Visual Dynamics研究小组。

加拿大多伦多大学机器学习和打算机视觉专业博士毕业。

Angjoo Kanazawa，马里兰大学博士毕业，现在是UCB电气工程与打算机科学系的助理教授，在BAIR领导旗下的KAIR实验室，同时也是Google Research的研究员。

最末了，再来欣赏一遍AI编舞师的魅力吧：

论文：https://arxiv.org/abs/2101.08779GitHub：https : //github.com/google-research/mint数据集：https://google.github.io/aistplusplus_dataset/项目主页：https://google.github.io/aichoreographer/

参考链接：[1]https://www.marktechpost.com/2021/09/15/google-ai-introduces-full-attention-cross-modal-transformer-fact-model-and-a-new-3d-dance-dataset-aist/[2]https://ai.googleblog.com/2021/09/music-conditioned-3d-dance-generation.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一韶光获知前沿科技动态

不堪一击作者

上一篇

十年每一个奋斗的你看山望水寄乡愁重庆若何宿造村落未来

下一篇

时光与小巷作文800字

登录关灯投稿生成海报微信客服 QQ客服返回顶部