传统的视频生产产品,其实一直以来都面临着如何解决和平衡 使用门槛、生产成本和效果控制 这个不可能三角的难题。
一些产品可以产出非常复杂而且高质量的内容,但是与此同时带来非常高的使用门槛和学习操作成本;
一些我们说的套壳产品,快速接入了各种模型和工具,但是他们各自为战,用户需要自己选择对应的模型并且在传统工具中进行复杂的剪辑工具;
最后是一些本质上是工作流的 Agent 产品,门槛变低了,但是内容制作的广度和多样性被牺牲了,普通用户只能等待产品更新模板或者工作流,而且工作流的更新非常消耗人力。
Medeo 的选择是:构建一套专门为视频 Agent 创作的语言Gensystem,主要由三部分构成:
首先是 Medeo DSL:一套专门用来对视频内容和制作方法进行表述的“视频制作语言”可以将用户的模糊自然语言指令转换为模型可以理解的视频编辑操作。
然后是 Context System:由工具集、视频制作方式等信息构建的上下文系统,每次对话都可以从用户的指令和需求中匹配更多的视频制作专业上下文。
最后是 Environment:这是一个可以支持用户与 AI 共同行动、控制编辑的视频剪辑界面,我们前面说的混合编辑就是这个东西。
我前几天说过,我写Medeo提示词有两个原则:
尽可能的简洁,少写一些具体的需求
尽可能的通用,让提示词能支持更多的能力和更多的场景
但是,这两个能促使我去实现这两种写法的,其实对于模型本身和整个Agent的系统有足够高的要求。
这个系统必须能够自己补充上下文,同时自己有一定的智能,无论是在图像设计上的智能,还是在视频剪辑以及视频构建上的智能。
所以一个系统是否能支持这两种写法和原则,可以一定程度上判断这个系统的上下文管理能力、上下文获取能力以及智能程度。
一些产品可以产出非常复杂而且高质量的内容,但是与此同时带来非常高的使用门槛和学习操作成本;
一些我们说的套壳产品,快速接入了各种模型和工具,但是他们各自为战,用户需要自己选择对应的模型并且在传统工具中进行复杂的剪辑工具;
最后是一些本质上是工作流的 Agent 产品,门槛变低了,但是内容制作的广度和多样性被牺牲了,普通用户只能等待产品更新模板或者工作流,而且工作流的更新非常消耗人力。
Medeo 的选择是:构建一套专门为视频 Agent 创作的语言Gensystem,主要由三部分构成:
首先是 Medeo DSL:一套专门用来对视频内容和制作方法进行表述的“视频制作语言”可以将用户的模糊自然语言指令转换为模型可以理解的视频编辑操作。
然后是 Context System:由工具集、视频制作方式等信息构建的上下文系统,每次对话都可以从用户的指令和需求中匹配更多的视频制作专业上下文。
最后是 Environment:这是一个可以支持用户与 AI 共同行动、控制编辑的视频剪辑界面,我们前面说的混合编辑就是这个东西。
我前几天说过,我写Medeo提示词有两个原则:
尽可能的简洁,少写一些具体的需求
尽可能的通用,让提示词能支持更多的能力和更多的场景
但是,这两个能促使我去实现这两种写法的,其实对于模型本身和整个Agent的系统有足够高的要求。
这个系统必须能够自己补充上下文,同时自己有一定的智能,无论是在图像设计上的智能,还是在视频剪辑以及视频构建上的智能。
所以一个系统是否能支持这两种写法和原则,可以一定程度上判断这个系统的上下文管理能力、上下文获取能力以及智能程度。