视频生成领域的技术竞赛仍在持续升温。

作为国内视频生成技术的领先者,快手旗下的可灵AI近期推出了“主体库”与“对比模板”两项重要功能,进一步提升了其核心产品可灵O1在内容创作方面的效率和作品呈现效果。

而在大洋彼岸,OpenAI的Sora 2却遭遇了新的挑战。据可靠数据显示,Sora的用户留存率远不及TikTok,首日留存率仅为10%,30天留存率更是低至1%。相比之下,TikTok的留存率分别达到了50%和32%,差距显而易见。

时间回到去年9月底,OpenAI正式发布Sora 2及其独立应用时,业内曾有预测认为这将引发一场由人工智能主导的视频内容革命。当时甚至有人预言,Sora App可能会对TikTok和Instagram上的网红产生重大影响。

然而,经过一年的发展,事实证明这一设想与现实存在明显差距。尽管OpenAI曾乐观地认为我们可能正在经历视频领域的“GPT-3.5时刻”,但在2026年底,行业整体表现仍显疲软。

在当前的技术竞赛中,中美两大科技阵营的视频生成模型呈现出明显的同质化趋势。无论是谷歌的Veo、Runway的Gen-3 Alpha,还是Luma AI的Dream Machine,抑或是国内字节跳动的即梦、快手的可灵以及生数科技的Vidu等产品,均采用了DiT(Diffusion Transformer)架构。这种技术路径的选择导致竞争焦点逐渐转向数据质量、上下文处理能力和对物理规律的理解。

尽管各家厂商在技术上不断突破,但目前视频生成模型的实际表现与预期仍有较大差距。用户体验方面的问题尤为突出:生成内容中的角色动作不自然、物体消失等现象频发,导致用户满意度下降。这种“展示效果与实际操作不符”的现状直接影响了产品的市场接受度。

除了技术瓶颈外,高昂的算力成本也是视频AI公司面临的重大挑战。相比文本生成,视频生成对计算资源的需求呈指数级增长。每秒钟高清视频的生成不仅需要强大的GPU支持,还需处理大量的推理运算。这种“算力黑洞”效应使得许多中小型企业难以承受持续的研发和运营成本。

商业模式方面,视频AI目前尚未找到有效的盈利路径。与ChatGPT等文本工具相比,视频生成在生产力属性上仍显不足。C端市场中,大多数用户将其视为“尝鲜”工具,而非日常创作伙伴;B端市场则面临“可控性”的难题,难以满足专业领域对精确控制的需求。

尽管各大科技巨头仍在努力突破技术瓶颈,但视频生成距离成为通用型基础设施仍有很长的路要走。这不仅需要算法层面的创新,更需要算力成本的显著降低和应用场景的进一步拓展。