在人工智能领域,模型小型化与端侧部署早已不是新鲜话题。

从Meta到微软,从苹果到谷歌,科技巨头们在过去几年间纷纷推出了各类小模型产品。Llama-3、Phi-3、OpenELM等型号不断涌现,标志着这一领域的技术进步与商业化进程。

其中,一家名为Multiverse Computing的西班牙初创公司凭借其独特的"量子瘦身"技术,在这个竞争激烈的赛道中异军突起。这家成立于2019年的公司,通过CompactifAI核心技术,将大型语言模型的体积压缩至原来的5%,同时几乎不损失任何性能表现。

Multiverse Computing的成功并非偶然。凭借其强大的研发团队和技术创新能力,该公司在短时间内完成了五轮融资。截至2024年,其估值已从1.08亿美元攀升至5亿美元,成为西班牙最具价值的人工智能初创企业之一。

近期,Multiverse Computing再次引发关注。公司推出了两款号称"全球最小模型"的产品——SuperFly和ChickBrain。其中,SuperFly基于开源SmolLM2-135模型开发,参数量从1.35亿压缩至9400万;而ChickBrain则将Llama 3.18B模型压缩到了3.2B参数,可以直接在苹果设备上运行。

这一系列成果背后,隐藏着多个值得深入探讨的问题:Multiverse的"量子瘦身"技术究竟有何独特之处?模型压缩对性能的影响有多大?其技术如何突破硬件限制并获得行业巨头的认可?在Meta、谷歌等科技巨头纷纷布局小模型市场的今天,Multiverse Computing的核心竞争力到底是什么?

一、从量子计算到AI压缩:技术转型的启示

Multiverse的起源并非与AI相关。2019年成立之初,这家公司专注于量子计算软件开发,致力于用量子技术解决金融领域的投资组合优化和风险管理问题。

凭借在量子计算领域的积累,Multiverse很快获得了行业认可,并被Gartner评为"Cool Vendor"。这一称号被视为科技领域创新企业的风向标,也为公司吸引了欧盟1250万欧元的资金支持。

Multiverse的团队构成堪称多元化:40%成员拥有博士学位,核心成员涵盖金融、量子物理与科技创业等多个领域。CEO恩里克博士不仅拥有数学、计算机和医学背景,还具有20年的银行业经验;联合创始人罗曼是欧洲顶尖的量子物理学家;CTO塞缪尔则在量子计算与机器学习领域有着深厚的造诣。

转折发生在2023年。生成式AI的崛起带来了新的挑战:模型参数规模急剧膨胀,算力成本也随之飙升。Multiverse团队敏锐地意识到,其长期积累的量子张量网络技术可以解决这一行业痛点。

凭借在量子计算领域的技术积累,Multiverse开发出了独特的模型压缩算法——CompactifAI。这一技术不仅大幅降低了模型的体积,还保证了性能几乎不受影响。

以Llama 4 Scout Slim为例,在AWS上每百万tokens的调用成本从0.14美元降至0.10美元,降幅达30%。更重要的是,经过压缩的模型可以在普通PC、手机甚至汽车等设备上运行。

目前,Multiverse提供了三种主要服务模式:通过AWS API提供压缩和原始模型访问;出售私有部署许可;以及与服务提供商合作交付定制化推理服务。

二、巨头环伺的小模型市场

尽管Multiverse Computing在技术上取得了显著突破,但其面临的竞争依然激烈。从Meta到谷歌,从微软到初创公司,整个小模型赛道已经挤满了各路选手。

Meta推出了13亿参数的LLaMA微型模型,Google DeepMind发布了Gemma系列(参数量在2亿至7亿之间),微软则通过Phi系列展示了在特定任务上超越大模型的可能性。与此同时,Neural Magic、Deci等初创公司也在不断挑战AI效率的极限。

Multiverse的优势在于其独特的压缩技术。通过量子物理方法实现的模型瘦身,使其能够在不显著影响性能的前提下,大幅降低算力需求和成本。

然而,也有分析指出,Multiverse目前的核心业务仍然围绕现有模型的压缩展开,而非独立训练小型模型。这种模式的优势在于能够快速落地,但潜在劣势则是对第三方模型的依赖性较强。

此外,在端侧模型领域,Multiverse需要解决更多工程化问题。不同设备的计算资源、能耗管理等问题都需要针对性优化。如何与硬件厂商深度合作,建立稳定的生态系统,将成为公司未来发展的关键。

尽管面临诸多挑战,Multiverse Computing通过其创新的技术和商业策略,在小模型市场中开辟了一条独特的发展路径。无论是在技术突破还是商业化落地方面,这家西班牙初创公司都展现出了强大的潜力。