“有啊!
我听到或者想起某些歌曲时,

常常即兴作词然后重新演绎出来。

这位唱作型歌手的背后那些你必须理解的黑科技 休闲娱乐

觉得自己棒棒哒!

“那你看看这首歌词

能帮我写首相似的吗?”

“太难了我写不出来”

“给你图片元素做参考”

“臣妾真的做不到啊~你为什么不用唱图呢?”

唱图

随便给张图片, TA 就能识别图片内容!

然后根据内容创作歌词!

并声情并茂地演唱出来!


还能男声女声任性切换!



想要多少歌词他都能给你写出来!



哪怕再不可置信,也不得不承认:

打算机软件越来越像人了,

乃至有些事情比人做得更好

本日我们想说一说唱图背后蕴含的各种黑科技,

把这个唱作型歌手“分解”成各种配方。

毕竟你可能也想照方抓药开拓个类似的 TA 出来呐~~

言归正传,

我们就从一首歌曲的出身过程来开始吧。

1. 阐发创作意图并确定素材

不管是小学时候写作文,还是事情后写业务简报,乃至词曲创作,首先要明确创作意图并确定终极成果所要包含的内容。

当你在唱图中供应了一张图片后,唱图须要剖析图片内容是什么,风景?建筑?人物?

如果确定图片中包含人物,那么还须要识别人物的面部表情和感情。

毕竟,面对残酷星空歌颂祖国壮丽山河,或对着情侣甜蜜合影倾诉相思苦,这都不是我们想要的。

因此唱图首先会利用微软认知做事中的打算机视觉API 识别图片中包含的内容。
这个 API 很厉害哦,可以从给出的图像中提取各种信息,例如场景、地点、名人、地标建筑物、印刷或手写笔墨……借此可以理解图片包含的内容,为后续创作供应素材。

打算机视觉API识别出了图片的场景和内容

如果识别到图片中包含人物,接下来会利用认知做事中的 人脸识别API 和 感情识别API 来判断人物的数量,性别年事配饰等特色,以及人物的表情和感情。
个中人脸识别API 可用于实现面孔检测和识别、相似面孔搜索、面部分组等功能;感情识别API 可以检测到愤怒、歧视、厌恶、恐怖、快乐、无表情、悲哀以及惊异等常见的人类感情。
这些检测结果也将进一步运用到后面歌词创作过程中。

感情识别API 可检测照片中的人脸并判断每个人的感情和表情

2. 歌词创作

从给出的图片里提取了创作素材后,接下来须要创作歌词了。
在这一过程中,唱图会通过自然措辞处理技能,通过神经网络深度学习海量歌词的创作技法,并结合用场的创作意图自动天生歌词。

为此,唱图会通过认知做事中的 措辞理解(LUIS) 做事剖析处理并理解网上流传的大量歌词,从中找出一定的规律和共同特色。
随后根据上一步从用户供应的图片中提取出来的信息,再结合从现有海量歌词中学到的“作词技能”,自动天生符合图片场景的新歌词来。

3. 演唱

然后,唱图就会结合创作好的歌词来搭配一段现成的曲子,并终极演唱出来。

这一过程中,唱图利用了认知做事中的 必应语音API 和 自定义语音做事 。
个中必应语音API 紧张用于将歌词文本转换为以男声或女声形式唱出的歌声,自定义语音做事则可通过自定义的语音识别器声学模型调度所唱内容的风格、节奏、音色等特色。

======

大略来说,唱图的所有功能,基本都是调用微软认知做事相应的 API 实现的。
目前,认知做事供应了涵盖打算机影像、语音、知识、搜索、措辞 五大类数十种不同的做事和 API ,通过灵巧排列组合调用这些做事,即可快速大略地编写出可以跨平台运行的智能运用。

以是,这个网红背后的技能,虽然看着非常高大上,但讲真,任何开拓者都可以轻松拥有。

如果还是不敢相信这么几个功能就可以打造出如此天才的唱作型好手,那就亲自试试吧: 点这里 ,供应一张图片,自己感想熏染一下 TA 到底有多厉害。

本文来自IT不雅观察猿,创业家系授权发布,略经编辑修正,版权归作者所有,内容仅代表作者独立不雅观点。
[ 下载创业家APP,读懂中国最赢利的7000种买卖 ]