最佳短视频AI生成器？Kling 2.1与Google Veo 3

AI视频生成刚刚获得了重大升级。快手的Kling 2.1现在可以生成看起来真正具有电影感的视频——这种画面在几个月前需要电影摄制组和昂贵设备才能实现。角色自然移动，情感真实，复杂的动作场景展开时没有通常会让人觉得“这是由AI制作”的明显伪影。

Kling是较为知名的先进视频生成平台之一，由中国科技公司快手于一年前推出，该公司也因其社交媒体创新而闻名。它特别以能够创建最长达两分钟的高清（HD）视频而著称，并且是许多表情包制作人用来动画化他们的政治讽刺作品（如特朗普、埃隆·马斯克和其他有影响力人物）的模型。

新的技术改进包括更快的生成速度、更好的提示遵循性、更高的真实感和更少的伪影。大师级（Master）版本利用先进的3D时空注意机制和专有的3D VAE技术，提供公司所描述的电影级输出。

时机恰到好处。快手在谷歌发布Veo 3后仅几天就推出了2.1系列，巩固了在AI视频排行榜上的领先地位。竞争如此激烈，以至于根据谷歌趋势，“AI视频”的兴趣在本月达到了历史新高——而大部分兴趣是由于模型的优越性能所驱动。

早期访问用户在社交媒体平台上分享了演示视频，称赞大师版能够生成“令人震惊”的电影画面。

基准比较显示，Kling的前身Kling 2.0在所有竞争模型中表现优于谷歌的Veo 2和3。2.1版本增强了现有功能，并解决了之前关于生成速度和一致性的担忧。尽管由于时间太短而未能被纳入当前的AI排行榜，但预计很快会有包含全面测试数据的更新。2.1大师模型预计将扩大谷歌与Kling及其竞争对手之间的性能差距。

Veo与Kling：它们的比较

我们测试了这两种模型，以查看它们的表现。AI视频领域的佼佼者并不便宜——Kling 2.1大师版每10秒视频几乎要收费$3——而且仍然远未达到真实视频编辑所需的细致程度。然而，Veo和Kling都代表了对上一代模型的明显升级，任何爱好者都会对它们的能力感到非常满意。

快手的策略表现出色，因为与竞争对手不同，Kling 2.1提供三种模式：标准模式720p，每5秒视频需20个积分；专业模式1080p，每5秒视频需35个积分；大师模式1080p，每5秒视频需100个积分。模型越好，渲染的费用和时间就越高——但即使是最基本的选项也比之前的Kling 1.6 Pro提供更好的结果。

等待时间相当长：Veo3通常让我每个视频等待大约5分钟，有时甚至超过15分钟。同样，系统拥堵意味着我遇到了很多错误，这意味着我不得不重新生成。

定价结构反映出非线性的进展，专业模式在成本不到一半的情况下提供了非常接近大师版的视觉质量。在我们的主观评估中，中间层级是对需要高清晰度而不追求最终电影效果的专业创作者来说最具性价比的选择。

文本生成

提示：一个肚子上写着“EMERGE”字样的可爱机器人，走近镜头，微笑着用它的数字面孔，然后飞走。

Kling 2.1，尤其是大师版，相较于之前的1.6有显著改善。文本渲染干净，并且在帧之间更趋于一致。

然而，当单独分析这个特定功能时，Veo 3略占优势。两个模型都可以生成文本，但Veo 3的表现更为一致。

例如，两个模型都成功生成了一个带有“EMERGE”字样的小机器人。然而，当我们生成一个该机器人不是主要焦点的场景时，Veo 3仍然提供了准确的文本，而Kling则生成了无意义的文字。

真实感与人类情感

提示：一位女性带着深深的悲伤走近河边。她在哭泣中取出一个刻有“Emerge”字样的无生命机器人，哀悼她的失去。

如果Kling 1.6 Pro专注于动态场景和流畅的运动，Kling 2.1似乎将重点转向了真实感。该模型在复杂的运动序列中表现出色，准确渲染关节对齐和车辆特技中的真实物理效果。模型增强的提示遵循性使得对相机运动和情感表达的控制更加精确。

反应比Kling 1.6 Pro甚至Veo 2更为真实。

然而，与Veo 3相比，Veo 3能够生成音频这一事实成为增强场景情感影响力的主要因素。

当要求生成相同提示的场景时，Veo 3采取了更具电影感的方法。相机角度和色彩分级有助于表现场景中的情感。

另一方面，Kling 2.1则专注于情感本身的表现。

缺乏音频和不同的方法使得很难宣称哪一个优于另一个。这取决于每个用户的品味、生成的运气，以及你更看重什么——场景的整体氛围还是表演的表现。

在这个场景中，Kling 2.1大师版未能正确渲染“Emerge”这个词。请注意，死去的机器人并不是场景中的主要角色，因此模型在其他在提示中突出的元素上投入了更多的努力。

图像到视频

提示：场景开始时正如所示，然后加速进入一个催眠的时间流逝，几十年在几秒钟内流逝。复古出租车在时间中静止，而城市在它周围变幻——霓虹灯从传统的汉字演变为全息显示，建筑物变形并变得更高，人们的服装穿越时代，飞行车辆开始在建筑之间穿梭。相机缓慢围绕静止的出租车旋转，成为这个城市演变漩涡中的时间锚点，最后以同一辆出租车出现在一个完全未来主义的城市景观中。

图像到视频是一种技术，用户提供场景的起始帧，AI模型在该图像的基础上构建其生成。这提供了最佳的控制水平，让用户对每次生成的预期有一个概念。

Kling 2.1的标准和专业模式目前仅支持图像到视频的生成，要求用户提供源图像。公司宣布这些层级将很快添加文本到视频的功能，而大师模式已经包括此功能，并增强了动态效果和提示遵循性。

Kling 2.1大师版和Veo 3都支持图像到视频，但Veo 3需要使用Flow而不是普通的Gemini UI。在使用Flow时，生成的视频缺乏音频。

在我们的测试中，Kling 2.1的表现优于Veo 3，但远非完美。它能够理解相机运动、元素和场景意图。然而，它未能保持对主要对象的关注，而是将注意力放在周围环境（随着时间演变的城市）上，导致其成为场景中的关键元素。

另一方面，Veo 3则始终专注于主体（汽车），但未能渲染提示中的其他元素。因此，它生成了一辆静态汽车，静态镜头，背景是同样的城市，只是有一些飞行的汽车经过。它未能提供准确的结果。

总体而言，这是可以预期的。Kling 2.1将在更少的生成中提供更好的结果，所需的提示工程也更少。它还提供输入负面提示的选项，这可能有助于获得所需的结果。

动漫/卡通和2D艺术

我尝试了三次生成动漫风格的视频，但都没有成功。使用这些模型生成2D艺术似乎是不可能的，可能是因为它们专注于真实感。

最佳替代方案似乎是使用图像生成器生成初始的2D帧，然后利用图像到视频的能力来获取所需的场景。

多主体场景

提示：五只灰狼幼崽在一条偏远的碎石路上嬉戏追逐，周围是草地。幼崽们奔跑、跳跃，互相追逐，互相咬着，玩耍。

对于AI模型来说，处理多主体场景仍然具有挑战性。当主要角色超过三个且场景动态时，模型会失去一致性，合并角色，生成新的角色，并显示出许多伪影。

Kling 2.1在这方面仍然如此。该模型相较于之前的版本有显著改善，但仍未能准确管理复杂场景。在我们的测试中，它没有生成五只狼，而是生成了三只。

然而，Veo 3尝试生成完整的狼群。起初并未成功，但在场景接近尾声时，模型将所有狼分开，恢复了一定的一致性，最终能够生成五只狼。

然而，Kling 2.1为了获得显著的一致性，牺牲了一些提示遵循性——这似乎是更好的结果。

动态镜头

提示：动态跟踪镜头跟随一位穿着鲜艳红色裙子的女性，她在纽约市中心的霓虹灯高楼峡谷中绝望地奔跑。她飘动的头发捕捉到来自高耸数字广告牌的电蓝色光线的碎片，而尘土和碎片在她周围混乱地旋转。在她身后，一只巨大的机械网络蜘蛛，闪亮的铬合金腿和脉动的LED传感器，冲破城市景观，它的金属肢体在混凝土上发出火花，毫不留情地追逐着……（完整提示见YouTube描述）

动态镜头的评估很棘手，因为细节决定成败。通常，当事情发生得很快且焦点在主要角色上时，其他元素往往被忽视。这就是为什么生成视频模型往往会产生有趣的镜头，但经过仔细检查后却显得平淡无奇。

令人高兴的是，在我们的测试中，Kling 2.1证明比2.0和Kling 1.6更具动态性。它生成了快速节奏的场景、戏剧性的镜头和引人入胜的动作序列。之前的Kling模型生成的内容通常在进入动作之前会显示几个静态或缓慢的画面。这个问题已经得到解决。

Veo 3通过良好的音轨增加了一些动态性。该模型还生成了良好动作序列所需的一切——运动、爆炸、动态镜头、尘土和混乱——感觉更真实，少了2.5D或绿幕的感觉。

然而，与Veo 3相比，Kling 2.1在提示遵循性方面表现更佳。我们的女性角色是逃离巨型蜘蛛，而Veo 3生成的是一名女性朝蜘蛛跑去——这是一个很好的场景，但最终却毫无用处。

此外，Veo 3生成的女性角色在生成的中途开始不自然地奔跑，这代表了AI公司在处理长格式内容时必须解决的挑战之一——在持续的镜头中保持一致性，这些镜头持续的时间足以破坏模型的一致性。

结论

我不想说，但实际上并没有明确的赢家，在生成AI视频领域，第一次最佳选择取决于你的期望和你愿意支付的金额。

Veo 3由于其音频生成而具有明显优势。声音连贯且清晰，以至于任何无声视频现在都感觉像是退步。在后期制作中添加连贯的音频仍然是一个臭名昭著的困难任务，因此这可能是许多人做出决定的关键。

另一方面，Kling 2.1在图像到视频转换方面是赢家，允许用户将现实生活中的照片或使用专门模型（如Flux或Ideogram）创建的图像转换为引人入胜的动画。你不能在Gemini中进行图像到视频的转换——你需要Flow，而Flow仍处于测试阶段，仅通过每月250美元的订阅支持Veo 3，并且仅支持宽屏模式。即便如此，与Kling相比，它的质量仍然较低。

除了这两个关键差异外，其余的则取决于情况或个人偏好。它们都非常真实、一致（符合今天的标准）、富有创意，并将提供你所要求的最佳AI生成视频。如果差异基于偏好，那么你需要根据每个模型调整你的提示，结果的差异将会显而易见。

如果你不想花费太多，即使是Kling 2.1标准版也会提供远超行业中任何其他模型的惊人结果，接近最先进的水平。

总体而言，根据我们的测试，生成视频排名的第一名基本上在Veo 3和Kling 2.1大师版之间平分秋色。第三名，针对开源爱好者，归属于Wan 2.1——并可能在一段时间内保持在那里。它的VACE、LoRAs和工作流程使这个免费的、未审查的模型变成了一个独特的强者。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。