構造の人 LabLab

The Assembly Layer · Reading No.01

動画の性格は、どの層で決まるか

「こんな動画を作って」と頼むと、台本を書き、声をあて、絵を用意して、書き出すところまで——動画づくりをひととおり自分で進めてしまうツールがあります(指示すると、あとは自分で作業を続ける「Claude Code」という AI だけで動きます)。頼めば、動画は丸ごと出てきます。ただ、ただ頼むだけでは「なんとなく」で終わります。効く一本になるかどうかには、コツがある。しかもそのコツは、素材の出来ではなく「並べ方」の側にあります。どういうことか、道具の中身を開いて順に見ていきます。

構造の人 Lab / 読了の目安 6分 / 触れる分岐つき

トップへ戻る
The thing itself

1本の動画が、丸ごと出てくる

机に向かう人が、声・絵・短い映像・音楽といった素材を、画面の中の一本の映像フレームに並べ替えて組み上げている様子。
素材は同じ。並べ方が、動画の性格を決める。

このツールは、digitalsamba という作者が公開している claude-code-video-toolkit という公開プロジェクトです。人がフレームを一枚ずつ並べていく編集ソフトとは、出発点が違います。動画そのものが、ひとつの依頼から立ち上がってくる。

中を覗くと、声を作る道具、絵を作る道具、短い映像を作る道具、音楽を作る道具、実際の画面を録画する道具——役割の違う部品が、いくつも同居しています。一覧を眺めるだけでは、どれが主役なのか分かりません。役割で並べ替えてみます。

Three layers

用途・素材・組み立ての三層

道具を機能の名前で並べると平らに見えますが、何を担っているかで分けると上下がつきます。一番下に素材を作る道具、その上に素材を並べて一本にする組み立て、一番上に「何のための動画か」という用途。用途のタブで作りたい動画を選ぶと、そのすぐ下に組み立て方と使う素材が出て、用途しだいで組み立ての要も入れ替わることが、各層の際立ちで分かります。

用途Purpose

この動画は何のために作るのか。下のタブを選ぶと、その用途で「組み立て方」と「使う素材」がどう決まるかが、すぐ下に出ます。

↑ 用途のタブをひとつ選ぶと、その動画がどう組み上がり、どの素材を使うかが、ここに出ます。同じ素材棚から、用途しだいで別の動画になります。

組み立てComposition

素材をどう並べ、どう繋ぎ、何を画面に出すかを決める層。動画の性格は、ほぼここで決まります。用途を選ぶと、その動画で要になる作業がここで際立ちます。

  • 画面を合成する
  • 並び順を決める
  • 場面を見直す
  • プレビューで確認

素材Materials

並べる前の、一つひとつの部品。AIが声・絵・短い映像・音楽を作り、実際の画面録画も部品になります。それ自体はまだ動画ではありません。

  • 声を作る
  • 絵を作る
  • 短い映像を作る
  • 音楽
  • 画面を録る
The lower shelf

素材は、下の段にある

声を作る AI、絵を作る AI、短い映像を作る AI、音楽を作る AI。喋っているように顔を動かすものまであります。重い処理は手元では回さず、外部の高性能なコンピュータ(GPU)に任せ、最後にそれらを一本につなぐ道具が受け持ちます。どれも、いま実在する個別のサービス(声なら ElevenLabs、絵なら FLUX など)を組み合わせたものですが、名前は今は覚えなくて大丈夫です。

顔ぶれは華やかですが、ここで作られるのはどれも部品です。声の切れ端、一枚の絵、数秒の映像、一続きの音楽。それ単体では、まだ動画の性格を持ちません。性格は、これらをどう並べるかの側から、後で乗ってきます。だから素材は、三層の一番下に置いています。

Where character is decided

同じ素材から、二つの性格

このツールキットには、組み立ての分岐が両方とも入っています。ひとつは声を合成して語る動画。もうひとつは、声を当てず、触れる成果物を無音のまま実演する動画——実際の画面を、そのまま録画して見せる作り方です。下の二つを切り替えると、同じ素材棚から、組み立ての段がどう変わるかが出ます。

The order is the design

並び順が、設計図になっている

このツールが公開している作業の流れは、8つの段が決まった順で並んでいます。素材を作る段(「素材を集める」「音をつける」)は、この並びの一部でしかありません。台本が先にあり、場面の見直しと体裁づくりが素材の前後に挟まり、最後に下見で確かめてから書き出す。この段の置き方そのものが、組み立て層の設計図です。

公開されている8段の流れ

01台本を書くScript
02素材を集めるAssets
03場面の見直しScene Review
04体裁を整えるDesign
05音をつけるAudio
06下見で確認Preview
07書き出すRender
08公開するPublish

声をつける段(Audio)を抜けば、無音の実演に寄ります。素材を集める段を実画面の録画に振り向ければ、語りではなく見せる動画に寄ります。並びは固定でも、各段に何を入れるかで性格が動く。組み立て層は、道具の集まりというより、この段取りの設計のことです。

Materials are cheap

素材は、もう安く量産できる

素材を作る費用は、思ったより小さく収まります。公開された目安では、合成した声がひと区切りでおよそ1セント、AIで作る映像クリップが1本でおよそ23セント。一本の動画を組み上げるのに、素材代がボトルネックにはなりにくい水準です。

合成音声(ひと区切り)≈ $0.01
AI映像クリップ(1本)≈ $0.23

数値は公開されている目安で、使う道具やGPUの選び方で動きます。見るべきは桁です——素材が安く量産できるなら、難しさはもう「どう作るか」ではなく「どう並べるか」の側に移っています。

素材が安くいくらでも出せる時代に、動画を分けるのは素材の質より、組み立ての判断です。何を語り何を語らないか、語る代わりに何を触らせるか。費用が下がるほど、上の層の選び方が前に出てきます。

Source

中身そのものを見たいとき

8段の並び順も、使っている道具の一覧も、公開リポジトリの説明書(README)にそのまま書かれています。同じ中身を用途・素材・組み立ての三層に置き直すと、性格がどこで決まるかが見えてきます。新しい事実を足したわけではなく、置き場所を変えただけです。

In closing

コツは、素材より「並べ方」

頼めば、素材は勝手に出てきます。声も、絵も、短い映像も、安く。だとすると、出来上がりの良し悪しを決めるのは、もう素材の側ではありません。同じ部品でも、並べ方を変えれば別物になる——上の分岐を切り替えると、すぐ分かります。

だからコツは、ひとつ。作りはじめる前に「何のために、どう並べるか」を先に決めること。素材を盛るより、そこに時間をかける。動画にかぎらず、AIに何かを作ってもらうときは、だいたいこれが効きます。