Kaiyun - 中国权威官方网站

『新闻大全』

这家AI公司做出了全球最大的原生3D大模型

2025-01-13  

  “在淘宝上,有特别多做3D创意设计的店铺,他们一年的销量能达到几十万件。原先他们是半人工操作,现在我们现在能够借助AI、通过3D生成直接打印就可以了。”DreamTech创始人张飞虎向「甲子光年」展示道。

  DreamTech虽然是一家成立仅9个月的AI创业公司,但其战略路线D生成,并且团队在这一领域的经验丰富。

  CEO张飞虎博士毕业于牛津大学,师从英国皇家科学院、皇家工程院两院院士Philip Torr。Philip Torr教授在3D建模方面有重点研究。此外,DreamTech创始团队成员还曾成功创立多家3D领域标杆公司,后被苹果、谷歌等业界巨头收购。

  这一次,DreamTech的成立,对于张飞虎和其团队来说,都是新的出发。不过在张飞虎看来,创业并非心血来潮,而是筹备已久:3D生成,终于走到了商业化的门前。

  2023年下半年,DreamTech团队发现了3D技术的新方向——能够实现端到端的生成模型,类似于图像或视频的处理方式。紧接着,他们又攻克了3D模型表征的关键难题。这两者技术突破,让张飞虎和他的团队看到了希望,随即开展了一系列紧锣密鼓的动作。

  2024年5月,DreamTech团队公布了其研发的3D生成大模型Direct3D的算法研究论文,这也是全球首个公开发布的具备可扩展性的原生3D生成大模型。该学术成果受到行业的广泛关注,Meta、Apple、Adobe等企业相继跟进该研究论文。

  8月份,DreamTech团队又推出了最新的Direct3D-5B版本,具备50亿参数规模,成为目前全世界参数规模最大的3D生成大模型,这一模型具备scaling up能力,基本结论为:3D生成模型参数量每增加4倍,生成结果质量精度提高2倍。

  具体来说,在3D领域,动画人物的手指等精细部位也可以被立体地生成。在模型几何结构规整度、细节精度上,Direct3D-5B也都实现了明显的提升。

  在产品即将正式上线前夕,张飞虎接受了「甲子光年」的专访,详细介绍了3D生成过去的痛点、如今在3D数据合成、算力、scaling law等方向上的突破。同时他还讲述了今年对DreamTech团队来说,最为重要的一件事。

  甲子光年:去年12月,DreamTech公司成立。当时,是什么契机促使你们决定回国创业?

  张飞虎:实际上,创业这个想法我准备了比较长的一段时间,但确实在去年下半年才开始融资。

  当时,我们发现了一个核心的技术收敛:3D领域可以像图像或视频一样做出端到端的生成模型,这是其他公司或研究人员尚未发现的。我们看到了3D领域scaling law的能力。

  去年上半年还出现了一项新的技术进展,叫DiT架构,它被应用于文生图。紧接着,我们自己解决了一个3D模型表征的问题,这是一个关键问题。将这两者结合起来,我们看到了希望,认为这个项目可以开始实施,并有望在今年(2024年)商业化。

  简单来说,去年下半年我们判断今年可以开始进行3D生成的商业化,而在此之前这是不可能的。

  张飞虎:对,其实在2022年初,我们就开始进行相关的研究和开发。那年,我们在WAIC大会上展示了相关的demo,当时关注度也比较高。但当时的技术水平仅限于制作一些演示,而且速度非常慢,可能需要一个小时才能生成一个3D模型,效果也不理想。我当时看到这个情况,就觉得它还没有达到商业化的程度,所以我们一直在不断地打磨和完善相关的技术。

  直到去年,我们发现了新的算法实现方案,情况不一样了。只要算力够,我们能立马去训练这个模型并开展商业化,所以我们在去年下半年启动创业。

  甲子光年:听起来,你们关于创业的整个决策过程是比较顺其自然的,并没有太多困惑和矛盾?

  张飞虎:我认为这是我们最自豪的一点。我们的战略决策做得就比较对,比如与市场上其他一些做3D生成的公司相比,包括海外的公司,他们在开始时选择了2D转3D这样一套方案,花费了几千万去做这样一个模型或者上线产品。

  但我们一直坚持做端到端的原生3D,当我们推出新方案后,旧的方案就全部被淘汰了。即便你投入了数千万甚至上亿的资金,在新的方案出来之后,所有的资源都要推倒重来。

  我们在战略决策上,由于我们自身的经验比较丰富,我们团队是做3D领域起家的,也做过公司并出售过,在3D领域有十年以上的一个积累。所以我们在战略决策时判断哪些算法可行,哪些事情该做,我们的方向就比较准确。

  在融资拿到钱之后,我们就立马就把这套方案给做出来了,基本上没有浪费什么时间和资源。

  甲子光年:在你看来创业最重要的是什么?或者说,你在创业之初的一个目标是什么?

  张飞虎:我的目标其实当时考虑得很简单。我2022年博士毕业前,也就是2021年,我已经拿到了包括Google、Facebook等大公司的offer,也拿到了教职的邀请。

  但我当时想的是,我想要做出一些影响力较大的东西,而不是仅仅在学校或大公司的研究所里继续做一些小规模的研究。

  比如,我想要开展一些大型项目,但无论是在学校还是在大公司,我都做不到这一点。因为在大公司,我不可能一进去就能独立开展一个非常大的项目,比如像现在的3D生成项目。

  另外,在学校里,资源是有限的,尤其是数据和算力资源,这是学校无法提供的。因此,我当时就想,如果想要做一个有影响力的大型项目,我就出来自己搞呗。这就是我当时的想法。

  甲子光年:你刚刚提到,在高校中进行这项工作时,数据和算力无法满足需求,是吗?

  张飞虎:对,首先,数据方面确实是一个难题。比如我们现在动辄需要处理的数据量达到1PB级别,这对于高校来说是无法支撑的。不仅是国内高校,即便是世界顶尖的学府,像牛津大学这种,尽管有庞大的经费,但它的算力也是有限的。

  实际上,我们要做一些好的工作,其实大部分情况下还是需要跟外部公司做合作的,算力和数据,都存在这样一个瓶颈。

  张飞虎:第一个是数据这块,3D数据的获取实际上非常困难。我们采取的策略是数据合成。

  在我博士研究期间,我的课题是3D AI结合数据合成。因此,我们从2022年开始到2023年初,持续在做3D数据合成的工作,合成了非常多3D的数据。比如你刚才看到的那些二次元角色的数据,都是我们合成的成果。

  张飞虎:对,3D数据的成本非常高,单个3D资产的平均制作成本大约是1000美元一个。

  如果人工制作这些数据,成本将是2000万乘以1000美元,所以人工制作是不现实的,全世界没有那么多人力可以完成这样的工作,因此3D制作的难度非常大。唯一的解决方案就是数据合成。

  我们在这块做了比较领先的一些方案,而且把它做到了一个全球领先的程度,甚至有些大公司可能会来挖我们的人才。核心原因在于,我们不仅理解了算法,而且拥有大规模的数据支撑。这些数据的规模可能比世界上任何一家公司都要大。

  数据合成是一套非常复杂的系统,它需要日积月累的的经验和系统构建,以及反馈机制。它是一个机器学习系统,类似于我们早年看到的AlphaGo,涉及强化学习和监督学习,然后通过整个反馈过程,组合出一些真正有用的成果。

  相比之下,其他公司可能需要购买数据,或者花钱去爬取数据,这当然存在一定的法律风险,属于灰色地带。另外,购买数据的成本非常高。所以我们的优势在于可以用低成本获取大量合成数据。

  甲子光年:你们是最开始就意识到数据是一个痛点,所以很早就往这个方向去突破了,是吗?

  因为我们坚定认为(数据)这件事比较重要,我对这方面的认识比较足。我所在的牛津实验室是世界上非常知名的能够进行数据合成的实验室,为苹果公司提供过相关的Kaiyun中国服务。我的导师认为,在算法层面,它并没有大家想象的那么困难,你不去做别人也会去做,但数据工作属于基础研究的领域。

  整个AI领域都是建立在数据基础之上的。例如,我们看大语言模型,Facebook开源的Llama 3与Llama 2相比,它的模型本身并没有大改,它只是更新了数据,将训练数据清洗得更干净,并使用了更多的训练数据,它的效果就直线提升了。实际上,数据才是AI的一个本质问题。

  有了数据的支撑,我们可以叠scaling law了。我们最近在研究中发现了一个非常重要的规律,在5月份时我还没有完全搞清楚,但最近我们迭代出新版本的模型后,发现了一个特别重要的事情:3D生成领域的scaling law,咱们看大语言模型生成了scaling law,图像模型生成了scaling law。

  我们发现:模型参数每提升4倍,模型的精细度就能提高2倍,也就是说我们生成的图像质量可以提高2倍。比如原来我能做1厘米厚度的东西,我现在就能做到5毫米。

  比如从1B到现在公开的5B,精细度的提升非常明显。1B的手指有些弯曲,但5B的手指就非常直了。

  张飞虎:我们在数据上的优势是任何一家公司都不具备的,哪怕是大公司。在算法层面上,我们迭代得非常快,实际上各家可能主要在参考我们的一些相关研究,我们推动了这一波的技术革新。

  短期内,比如半年内,我们在算法上的优势也很大。从长远来看,可能取决于我们拥有多大规模的数据。这是一个持续的过程,而且是一个门槛非常高的领域。

  甲子光年:我看过资料,你们目前已经开发了两款产品,这其中哪款产品会被优先开发?

  另一款产品则是名为AnimeIt的应用程序,它具备聊天和陪伴等功能,更偏向于C端市场。

  我们的商业化进程是有明确时间节点的,特别是在10月份,我们将重点放在创作者产品这一部分,并计划做一些活动,例如近期我们做了一个CuteMe的创意玩法,用户可以通过照片创作Q版风格化的3D形象,让普通用户也可以自由发挥创意。

  张飞虎:我们的服务模式之一是创意平台,通过我们的产品,设计师可以注册账号,并推出一些增值功能,例如付费用户能够体验到更多的功能。用户在网站上生成内容后,可以进行编辑,并利用工具制作动画,这些操作都可以在网站上完成。

  用户可以根据自己的需求使用这些内容,比如游戏开发者可以将其用于游戏开发,动画师可以用于动画制作,或者3D设计师可以将其打印出来,这是针对创作者的服务,我们称之为小B端的创作群体。

  对于普通用户,可能平时没有意识到自己是3D资产的消费者,但实际上大众都是3D内容的消费者。

  例如,在玩游戏时,我们可以为普通用户开放一个APP。这个APP的功能允许用户创造角色,包括Q版或二次元风格的角色,并与之进行互动,比如聊天和社交体验,还可以为角色装扮,类似于过去的QQ秀。

  此外,用户还可以将这些角色打印出来作为礼物送给他人,比如将家人的形象转换成风格化的角色后,作为礼物送给朋友或家人。

  用户还可以在APP上玩游戏,甚至自己制作小游戏,因为我们的生成技术非常强大,用户可以创造出场景,拼接资产,享受无限的可能性,比如自己创造游戏等。

  张飞虎:大约1~2分钟,这取决于后台用户排队的情况。如果等待时间较长,很可能是因为后台用户太多。去年这个时候,可能最快也需要20分钟。

  张飞虎:我们在做3D生成的时候进行过市场调研,普通用户大多不喜欢那种真实还原的效果。比如我给自己拍一张照片,然后做成100%还原的样子,普通用户并不喜欢,他们喜欢的是风格化、可爱、卡通化的效果。

  而且,这种风格的受众和市场规模要比其他风格大得多。比如二次元在整个3D内容消费市场中占据了50%的份额,加上Q版风格的,两者加起来超过了80%。

  所以去年我们确定以风格化作为主要的路线%的真实还原,而是会进行风格化处理,比如你输入的是一个人的真人图像,我们可能会将其转换成二次元形象,或者转换成Q版形象。

  甲子光年:基于你刚刚提到的全世界最大,包括之前也有资料显示是全球首个原生3D大模型。我如何辨别或证明是否为全球首个?

  张飞虎:你可以看到我们5月份最早发表的一篇关于原生3D的论文。这是目前公开发表的第一篇达到这种水平的论文。在此之前,确实还没有类似的研究,大家都在尝试其他的方案,但我们的这套方案是目前大家公认的。例如,我们了解到欧美的大企业都在跟进这套方案,都在朝这个方向去做。

  甲子光年:外界会对3D市场有刻板印象,认为3D的AI应用会是一个相对小众的市场,更适合设计师人群。你怎么看待这种观点?

  张飞虎:其实我刚才介绍行业的时候,每一个行业都非常非常大。当时我们在做市场调研的时候,就发现一个问题,比如现在非常热的图像和视频,大家传统意义上认为市场比较大,但大家会发现一个点,就是大众不太愿意为这些付费,因为互联网上这些东西都是天然存在的,是免费的。

  而当用户需要购买模型时,这与图像和视频也不一样,因为图像和视频可以轻易地截图或录制。但购买3D资产或虚拟资产时都需要付费,比如在sketchfab上购买一个最简单的资产,可能需要花费大约10到15美元。即使在国内,用户不太愿意付费的情况下,他们也会知道在淘宝上购买盗版模型可能需要花费几块钱。

  例如,游戏行业就是一个非常大的市场。再比如3D设计行业,它是一个万亿级别的行业。我们接触到的许多用户,比如珠宝设计师、鞋类设计师,或者其它类型的设计师,他们可能会设计出某个产品,生成一个3D模型,并将其制作成3D打印产品。此外,有些用户可能会购买一个花瓶,如果只是普通购买,可能只需要花费10元钱,但如果这个花瓶是用户自己创造的、独一无二的设计,那么他们可能愿意花费几百元。

  张飞虎:对,它会让这些行业做得更好玩,而且让每一个用户都可以独立创作。同时,比如我们期待的元宇宙和AR、R技术,为何之前的发展并不成熟,没有起来?核心原因有两个:一是内容太少,无法生产出好玩的内容。3D建模太难了,没有这类资产和数据,不像图像或视频那样简单,3D建模的难度确实很大。

  张飞虎:我们认为最重要的是在年底前完成15B至16B模型,也就是我们称之为XL模型的迭代。

  它意味着我们从数据合成阶段进入到数据闭环阶段。同时,在这一基础上,我们将开发出更多的商业应用。这是我们今年年底的目标,就是训练出一个具有160亿参数的模型。

  张飞虎:对,它将是一个非常大的里程碑。我们自己的C端产品都可以在这个基础上做得非常好。而在明年上半年,基于这个模型,我们可能会经历一个用户数量激增的阶段。

上一篇:工业设计新速度!西安未来智造3D打印技术助力原型快速制作
上一篇:超强游戏本推荐:轻松驾驭3A大作与大型3D设计软件!

猜你喜欢

  • 成 人3d动漫在线观看

    成 人3d动漫在线观看

      [环球时报特约记者 任重]英国政府当地时间13日以“打击普京的战争机器”为由宣布50项新制裁,对象包括5家中国实体。中国驻英国使馆发言人当天回应说,英国政府罔顾国内国际民意,不断火上浇油,不但没有反思自己的恶劣行径,反而罗织罪名制裁中国及其他国家企业,充分暴露了英方的虚伪嘴脸。中方敦促英方立即纠正错误,撤销对中国企...
  • 智能科技赋能:3D打印在艺术创作中的无限可能与创新之美

    智能科技赋能:3D打印在艺术创作中的无限可能与创新之美

      kaiyun中国网站在当今快速发展的科技时代,3D打印技术以其独特的优势逐渐渗透到各个领域,尤其是在艺术创作中。艺术家们开始探索这一新兴技术,利用其创新的可能性来扩展创作的边界。3D打印不仅改变了艺术品的制作方式,还为艺术家提供了全新的表达手段和创作理念。  3D打印,又称增材制造,是一种通过逐层添加材料来创建三维...
  • 脱颖而出!Style3D入选2024浙江省‘人工智能服务商’

    脱颖而出!Style3D入选2024浙江省‘人工智能服务商’

      kaiyun官网中国 开云kaiyun官网中国 开云解放周末!用AI写周报又被老板夸了!点击这里,一键生成周报总结,无脑直接抄   近日,2024年浙江省‘人工智能服务商’名单正式公布,杭州深度求索科技有限公司旗下产品Style3D凭借其在3D建模与虚拟试衣领域的卓越表现,成功入选该名单。这一荣誉不仅彰显了Styl...
  • 革新“新视界” 联想Thinkision裸眼3D显示器亮相中

    革新“新视界” 联想Thinkision裸眼3D显示器亮相中

      2024 年 8 月 14 日,第三届「中国 BIM 科技大会」在上海圆满落幕。大会秉承绿色、数字、高效的理念,以「让科技重复工作,让人类回归生活」为核心主题。联想携 Thinkision 裸眼 3D 显示器和联想工作站系列产品闪耀登场,为 BIM 应用领域带来革新性的「新视界」与强劲的性能支持。  近年来,BIM...
微信

手机扫一扫添加微信