我专注于 AI 视频和声音克隆领域的探索，是一名 AI 视频的深耕者。近些天我在微信视频号发布的 AI 视频《选择》播放量在 4 天内播放量超 4 万次，单条视频涨粉 1000+，收到了多个视频创作社区的加入邀请，在咱们破局星球的投稿也收获了 450+ 的点赞，我也收到了很多小伙伴的关注和私信，再次感谢大家的支持与鼓励！

我今天将给大家分享一下这一 AI 视频的制作过程，希望对大家能有所帮助。这里是视频的观看链接：https://t.zsxq.com/17SKl8Sos
话不多说，进入正题！我将从 AI 视频的应用前景，《选择》制作过程，AI 视频工具推荐，学习 AI 的几点心得四个章节来为大家分享，希望能给大家带来一些启发，也欢迎各位小伙伴与我探讨学习。

一、AI 视频应用前景及引起的创作浪潮

一) 对传统影视行业的冲击及应用场景

AI 视频相信大家已经不陌生了，不管是去年大火的 pika 或者是 runway、pixverse等 4 秒时代的 AI 视频工具，还是今年让全世界震惊的 60 秒时代的开创者 SORA，抑或是一键生成剧本和剪辑的 LTX，这些 AI 视频工具的不断更新和诞生，都在宣告着一人电影时代都已经离我们越来越近了。可能制作出一部院线电影还有很长的一段路需要走，但是做出微电影，或者为传统影视行业赋能已然不远。

目前我了解到已经有很多专业影视公司已经开始将 AI 视频应用到日常的影片制作过程中了，可以应用的场景更是数不胜数：广告视频，电商宣传、公益视频行业、文旅宣传视频、亲子视频、历史教育视频、文博讲解视频等场景都利用了这一技术。

这一技术大大提高了传统影视视频的制作效率和极大的降低了制作成本，原来拍摄一个广告，需要场地、模特、道具、摄影师、化妆师、灯光、音效、剪辑等等一整个团队才可以完成制作，现在只需要两三个人的小团队，甚至一人就可以完成，将制作周期从几周缩短到了几个小时，成本也从十几万甚至几十万直线下降，按需定价。

二）被点燃的视频创作者们

目前 AI 视频在全世界也点燃了众多创作者的创作热情，虽然 SORA 未到，但已然产生了许多极其优秀的作品，例如卡兹克老师的《流浪地球3预告片》、央视制作的《补天》、闲人一坤老师的《山海奇镜》等。

在世界范围内也举办了一系列的比赛，例如麻省理工学院举办的 AI 电影制作黑客马拉松大赛，runway 官方举办的 GEN-48 大赛等，涌现出了一批又一批的震惊观众的作品。而在 2024 年的 3 月 6 号，全球首部由 AI 完成的完整时长电影《我们的终结者 2 重置版》也即将在洛杉矶上映，这也将是一个划时代的活动。

虽然对于个人来说，现在制作出一个极其成熟的商业视频还很有难度，但是 AI 的发展是日新月异的，是全面开花的，技术门槛会一降再降，制作效率与效果会不断提高，将会很快渗透到整个影视行业的各个方面，甚至是对影视行业的重塑。我们要看到 AI 视频不仅仅是可以带来视觉上的冲击和对行业的提质增效，更是让身为非影视专业人士的普通人有了丰富表达方式的工具，和制作属于自己的电影的机会，是一定程度上的技术平权，是又一次激发大家进行创作的技术浪潮。

通过以上的讲述相信大家也意识到了 AI 视频将给我们的生活带来哪些冲击和机会，我此次的科幻微电影《选择》也收到了国内一些影视和特效从业者的好评，也更加坚定了我要不断创作和帮助大家创作的决心。

二、《选择》的制作思路与过程

通过上一部分的介绍，相信很多小伙伴也迫切的想创作属于自己的 AI 视频了，接下来我将分享此次视频制作的整体思路与制作过程。

整个视频是由多个 AI 工具组合使用制作而成，分别是 ChatGPT、Runway、SVD、Pika、Midjourney、Dalle、UVR5、Elevenlabs 等工具，大家看到的 AI 工具虽多，但是其实是在制作过程中处于不同的制作阶段就会自然的进行工具的选择和使用，而不是刻意的去选择使用这么多工具。

一）视频制作思路复盘

首先来给大家复盘一下制作整个视频的思路，为什么要先确定思路呢？原因有二：

一个明确的思路可以起到纲举目张的作用，做视频不能做到哪里想到哪里，这样整个视频的叙述会过于零散，容易交代不清整个故事想表达的意思，那就会给观众一种看了好像没看的观感，看完了不知道在讲些啥，只是有些绚丽的画面罢了。

思路的确定也决定了你工具的使用，例如要做一个有台词的故事就要使用声音克隆，而做一个纯画面表现故事发展的视频则不需要进行台词的撰写和配音。

下面是我的视频制作思路复盘：

确定视频主题

有了明确的主题才能着手思路的确定。主题我是选定了一个环保方向，近年来大家对探索太空这一话题是极其好奇的，不管是流浪地球的爆火，还是马斯克每次升空火箭都引来全球关注，还是天空实验室的每次科技突破总能给人们带来热议的话题，也可以给人们带来无限的遐想空间。

而在探索太空这一话题中，探索火星的话题又是一个极大的关注点，特别是很多人对于马斯克的火星计划很是感兴趣，不管能不能成功，都是人类对太空探索的努力和想象。很多人说探火是为了为了人类移居火星，我就顺着这条线向下思考，结合当下人工智能的崛起和很多人担忧的人工智能自主意识觉醒，所以才有了这个视频的主题：人工智能执行火星任务时，当遇到决定人类能否移居火星的关键要素出现时他要如何选择。

有了这一主题就可以确定后面的创作路线和工具选择了。

确定视频的表现方式

这里的表现方式不是说只是一个大概的方式，不是确定用数字人啊还是确定用 AI 动画之类的，而是要确定更加具体的，比如你是想选择多角色的人物互动表现故事情节，或者是想做纯镜头语言不加任何台词和旁白，或者想选择我这种单人角色的叙述。

因为不同的视频表现形式决定了你画面的构图，也决定了你的剪辑思路以及视频素材的制作，所以这一步是绕不过去的，否则后面视频制作时会做很多无用功，甚至从头来过。

确定工作流和工具

当以上两步确定以后，就要开始工作流的构思和工具的选择。

工作流我是遵循了以下步骤：剧本撰写 — 剧本细节打磨 — 分镜剧本撰写 — 分镜画面制作 — 分镜画面筛选迭代 — 分镜画面转视频 — 视频素材筛选迭代 — 配音选择及克隆 — 配音台词制作 — 配音台词筛选及迭代 — 背景音乐筛选及剪辑 — 音效筛选 — 素材整理 — 视频剪辑 — 视频剪辑迭代 — 敲定终稿。

之前也说过了工具方面是根据不同的制作阶段和视频表现形式进行选择的，所以根据以上的工作步骤和主题以及表现形式，我在不同阶段就使用了以下工具：

创作阶段	工具选择
剧本制作及打磨	ChatGPT
分镜剧本撰写及打磨	ChatGPT
分镜画面制作	midjourney、dalle3 等
分镜画面打磨	midjourney、dalle3 等
分镜画面转视频	runway、pika、svd 等
配音阶段	UVR5、elevenlabs
背景音乐	各大音乐平台和B站
音效	剪映
剪辑成片	剪映

二）视频制作过程

经过上一部分的各项工作确定后，就可以进行视频的具体制作了。整个制作过程用时差不多是 30 个小时，剧本一共是打磨了 4 稿，分镜图片生成了 230 多张，图片转视频生成了 120 多个，最终选择了视频中的那些镜头来呈现故事，配音台词生成次数更是数不胜数，因为要不断抽卡就没有都下载统计。接下来针对每一步骤的具体操作进行复盘。

剧本撰写及打磨

首先是剧本的确定，有了主题和表现形式，就可以进行剧本的创作，如果你的叙事能力很强或者写作功底很强，可以自己创作，如果你想发散思维或者解决细节问题，可以和 ChatGPT 进行讨论。

编剧是门艺术，所以才会有这么多的编剧大师，才会诞生这么多的好故事。我也是非专业人员，我在创作过程中有了以下几点体会，希望能给大家一些启发：

首先是要动手写起来，不论你如何创作，写才是第一步，你脑中想的只是一个想法，你写出来的时候才会发现有许多卡点，写下来才能针对卡点就行梳理解决。

其次，多和朋友讨论，多看书，多看影视作品，去体会影视作品中的叙述手法，然后去拆解，可以通过写影评的方式去拆解，这样会更加细致的去思考导演和编剧为啥要怎么去表达。

还有一点就是多练，短片创作的好处就在于时间短、剧情简单、人物数量少，这样相对来说好把控一些，所以多练多做，就会熟能生巧，也会迸发出有创意的点子。

我是在自己初步撰写出一个剧本后，使用 ChatGPT 进行了细节完善，由于提示词功底较差（愧于自称自己是小七姐的第一期学员哈哈），所以使用了对话的方式，不断进行调整，前后改出了 4 版，最终才成稿。因为视频一开始也是想给自己的小林战队加加油，所以主人公的名字也拟定为了林德曼，也就是小林老师的人哈哈哈，算是一个小彩蛋。

这里的提示词也可以使用角色身份赋予的方式，例如给他一个科幻编剧的角色，然后将你的初稿剧本给他，说明你的要求，尽可能细节的进行说明，不要下达许愿式的命令，而是要细化和具体每一个步骤，如果你觉得在一条提示词里实现较为困难，就可以和我一样边对话边改，然后形成最终的故事。

撰写分镜剧本及打磨

在整个剧本确定后，就让ChatGPT进行分镜剧本的撰写，作为一个非专业影视制作者，对于景别、运镜等概念的了解还是有限的，所以这一工作就交给了它来做，分镜剧本撰写的好处就是可以为剪辑和素材的搜集较少阻力，最后形成表格一目了然。

大家也看到了，分镜剧本的撰写与最后成片也是有差别的，因为 ChatGPT 并没有考虑到目前 AI 工具的局限性，是从传统影视制作的角度进行出发的，所以还是要经历人工的打磨修改，你可以给出指令让它导出一份 Excel 分镜表，然后你再进行修改，才有了下面这张图的分镜剧本的最终敲定。

台词部分也是 ChatGPT 先进行初稿的撰写，符合视频风格和角色性格特征的我会保留，其他的我就会进行修改，最后在用 ChatGPT 进行地道的翻译，这里也给大家解释一下为什么台词没有用中文的，因为目前的 TTS （文本转声音）声音克隆软件对于中文的情绪表达和稳定性相比于英文来说差一些，虽然也可以出来能用的效果，但是需要花费更大的时间和精力，制作时间会再拉长几个小时，从性价比和最后呈现效果角度来考虑我选择了英文台词配音。

但是里面加入了很多的中国元素，例如“龙芯”芯片，玄武火星基地，被中国派往火星的故事背景等等。

加入丰富的表现形式

这一点我好像做的没有太成功，没有成为片中的亮点之一，但是也是自己的一次尝试。大家在视频中看到了主人公自己的一套声音模仿，这是我想用声音克隆来玩一下，所以就将这一想法给到了 ChatGPT，他给我提供了一些想法，给了我一些好玩的台词，也贴合了模仿人物的性格，但是在最后剪辑中，因为视频时长的原因和素材的限制，我只采用了蜘蛛侠一个完整的台词。

分镜画面的制作

分镜画面的制作我是使用了两个工具，分别是 Dalle3 和 Midjourney，选择这两个的原因是因为，前者具有超强的文本理解能力，对剧本画面的还原度较高，而选择后者的原因是因为 V6 版本的图超级惊艳并且高清，这对于后面转视频来说是十分重要的，也决定了后面视频的清晰度。

这里很多朋友可能对于绘画提示词的编写不是很熟练，我们提示词可以借助 gpts，在 gpts 搜索栏里可以找到专门制作绘画提示词的工具，可以选择一些使用次数高的来帮助你，当然不论咋写提示词，也总会需要多次抽卡，所以我才出了两百多张图。

分镜画面提示词撰写完成后，就把这一画面提示词输入到 Midjourney 中，这里建议多出几次图，现在的 V6 版本还是相当惊艳的，多 roll 几次，有几率获得更好的效果。大家在选中想要的图片后建议使用浏览器打开，这样下载后的画面画质会高很多。当然也会有很多废图，例如地下发现水源的这个镜头，鬼知道我抽了多少次卡，抽到我崩溃，才出来这么一个能用的镜头。

这是地表水啊！我要的是地下水！！！
然后给我了这个图，直接给我整海里去了，我倒是希望火星有海，真的裂开了。

经过了十多次提示词的修改，还有不断的重绘（vary按钮），最后才出来了下面的镜头，虽然和我脑中的画面有些差别，但是已经可以表达出来这一镜头想表达的意思了。

人物的确定和制作

很多朋友都在好奇我是如何保持人物一致性的，我首先是将想生成的类似人物在网上进行搜索，然后截取图片后让Midjourney 的 describe 功能进行描述，然后使用图片网址和描述结合起来进行图像的生成。

因为我的一些画面灵感是来自电影《火星救援》的，而这一电影的画面风格也与剧本制定的风格一致，所以我有部分分镜的提示词也加入了“保持画面风格与电影火星救援一致”这一描述。之后我想起了之前有人用来恶搞的工具，wonder studio，这是一个 CG 制作工具，其中的一个功能是可以替换画面中的角色，我就将火星救援进行逐帧的观看和剪辑，把其中适合替换的场景画面给筛选出来，然后使用这一工具进行角色替换。
wonder studio网址：https://app.wonderdynamics.com/

这里多说一句，wonder studio 和 Midjourney 联合使用，虽然一定程度上解决了角色一致性的问题，但是成本较高，但是前者的订阅价格就是 20 美元一个月，而这一个月只有 150 秒的使用时长，本就不多的时长加上它的废片率较高，所以就使用成本很高。如果怕时长不够用，可以选择第二个套餐，第二个套餐价格极高，要 124 美元，有600 秒的使用时长。并且你想制作属于自己的角色，你需要先进行 3d 模型的制作，然后再把你的模型组件进行上传，然后再进行角色替换。这里 3d 模型的制作工具推荐 Tripo AI，在 discord 中就可以免费使用。也有人用过苹果手机的图片扫描制作 3d 模型，也是一个思路。

wonder studio 的使用过程是：先上传要替换的视频，然后进行画面角色的扫描和识别，再进行替换，所以有很多镜头是无法做的，因为它压根就扫描不出来角色，而扫描出来后，有的镜头又替换不干净，经常出现穿帮镜头，所以要仔细筛选；再之后选择好要导出的视频和模型，以便之后的剪辑和调整。

综上，还是推荐大家在 Midjourney 中进行人物一致性的操作，这里给大家一些操作方法进行参考：
1. 创建一致的角色：
– 在生成角色时，添加详细的面部特征描述，如年龄、眼睛颜色、头发颜色等。
– 使用`–seed`参数来确保每次生成的图片具有相同的随机种子，从而保持角色外观的一致性。
– 利用`/imagine`命令生成图像后，使用`U`按钮放大图像，并通过`Vary Region`功能来调整角色的背景或服装，同时保持角色面部特征不变。