AI探索指南
Medeo 1.0 终于上线了,这是我认为第一个真正意义上的视频 Agent 试了一下相当惊艳,具体的特点有: - 支持非常灵活的通过自然语言进行修改 - 支持超过上千字的超长提示词 - 提供非常好的泛化性,各种风格和垂类都可以做。 写了基础教程,并探索了三套非常好的提示词:https://mp.weixin.qq.com/s/ltoRVzX-6MHkRw8hl3qyNQ 由于篇幅所限这里先分享一下 Medeo 的基础教学和使用技巧以及他们关于视频 Agent 的思考 学一下基础操作 1️⃣第…
传统的视频生产产品,其实一直以来都面临着如何解决和平衡 使用门槛、生产成本和效果控制 这个不可能三角的难题。

一些产品可以产出非常复杂而且高质量的内容,但是与此同时带来非常高的使用门槛和学习操作成本;

一些我们说的套壳产品,快速接入了各种模型和工具,但是他们各自为战,用户需要自己选择对应的模型并且在传统工具中进行复杂的剪辑工具;

最后是一些本质上是工作流的 Agent 产品,门槛变低了,但是内容制作的广度和多样性被牺牲了,普通用户只能等待产品更新模板或者工作流,而且工作流的更新非常消耗人力。

Medeo 的选择是:构建一套专门为视频 Agent 创作的语言Gensystem,主要由三部分构成:

首先是 Medeo DSL:一套专门用来对视频内容和制作方法进行表述的“视频制作语言”可以将用户的模糊自然语言指令转换为模型可以理解的视频编辑操作。

然后是 Context System:由工具集、视频制作方式等信息构建的上下文系统,每次对话都可以从用户的指令和需求中匹配更多的视频制作专业上下文。

最后是 Environment:这是一个可以支持用户与 AI 共同行动、控制编辑的视频剪辑界面,我们前面说的混合编辑就是这个东西。

我前几天说过,我写Medeo提示词有两个原则:

尽可能的简洁,少写一些具体的需求
尽可能的通用,让提示词能支持更多的能力和更多的场景

但是,这两个能促使我去实现这两种写法的,其实对于模型本身和整个Agent的系统有足够高的要求。

这个系统必须能够自己补充上下文,同时自己有一定的智能,无论是在图像设计上的智能,还是在视频剪辑以及视频构建上的智能。

所以一个系统是否能支持这两种写法和原则,可以一定程度上判断这个系统的上下文管理能力、上下文获取能力以及智能程度。
 
 
Back to Top