2024年,趣丸的音频大模型MaskGCT和音乐大模型 “天谱乐”问世。宋克说,趣丸是幸运的,训出的模型能用、好用,如天谱乐,在当时已经十分接近行业领先的Suno的模型能力。
在MaskGCT项目立项前半年,2024年初,宋克已经想好模型的定位,七个字“情感情绪多语种”。这七个字的意思是,模型输出的声音有感情,能理解并表现情绪,而“多语种”是考虑到未来的出海,比如短剧的出海,把中文改为多语种,更适应海外传播。
宋克没有把这解释成自己的洞见,他解释说,这背后其实是老老实实的互联网思维——去发现用户的需求。七个字代表的,就是他们当时看到的用户痛点。
而创业有未知的风险,也有未知的惊喜。宋克介绍,有在非洲做影视发行的中国商人找上来,表示有一个需求,在当前的中国其他公司可能解决不了。在非洲通用两个语种,英语和法语,但是非洲人爱看韩剧,于是发行人把韩剧“搬”到非洲,中间还需要跨越韩语到中文,中文再翻成英、法文,效率不高,成本不低。

非洲人爱看韩剧和中国短剧
刚好,这事儿MaskGCT能做。
“他们也没想到,把韩语台词直接改为英语、法语的需求,居然可以由一家中国公司解决。”宋克说。
强调解决需求的“产品力”,超过了强调大模型的能力,是趣丸与一众AI公司的不同。这可能跟趣丸的 “出身”是互联网有关。
天谱乐大模型就是一个典型例子。去年9月,趣丸推出天谱乐,公司高层介绍时,对天谱乐的一句话生成、图片及视频生成配乐等“普通人玩法”面面俱到,但更大篇幅介绍的是MidiRender,一种针对音乐人严肃创作的“专业玩法”。
宋克介绍天谱乐时也提到MidiRender,它能以音乐人创造的旋律为底本,在生成时接受严格控制,并且是在音轨、音阶、采样率等方面的精细化控制。效果上,“音乐人可能以前要用一个月制作的歌,现在一个小时可能就出来了”。

天谱乐AI
宋克的逻辑清楚明了:“小白要玩音乐,天谱乐的能力也是有的、可以满足,但普通人更多是尝鲜玩下,尝过以后就算了,是低频的。对音乐人来说,这是他的工作,他才是高频用户。”宋克解释,因此在商业化的角度,应该围绕音乐人、创作者去打造产品。
了解用户是谁、发现用户需求,再去为他们提供辅助、解决问题,这是宋克的思维习惯。
这习惯的另一面是,他对一款应用是否是“AI原生”,或者趣丸是不是一家AI公司的问题,并无执着。
作为互联网创业者,宋克懂得“行规”,一些酷炫的概念或材料,比如“超强AI”“原生AI”,又或是“勤于打榜”,前缀定语很长的某个“第一”,其实目的很“复杂”。他特别提到,“很多早期的模型公司,我很不认可他们讲的这个那个模型的能力有多强,就能够挣多少多少钱”。
模型能力与盈利收入不一定成正比
讲模型能力的有很多,但很少有人讲的是,这个产品是给谁、提供了什么样的价值,以及基于这个价值的商业化该怎么做,那么,其实“从模型到所有的前置设定,都是不成立的”。
模型能力与价值、商业化,混为一谈是不行的,这是宋克作为商人的基本嗅觉。
价值主张上,趣丸团队也有明显的不同,即不追求“AI替代人类”。从天谱乐到MaskGCT的主打功能上,其实不难发现这一取向。宋克承认了这一点,并称一位趣丸同事的话很让他认同,这句话是“AI时代,算法是犀利,但重要的是人,因为洞察与热爱永远不会被替代”。
在硬科技领域,这句话显得“鸡汤”,但是不妨一尝。