The Assembly Layer · Reading No.01
動画の性格は、どの層で決まるか
「こんな動画を作って」と頼むと、台本を書き、声をあて、絵を用意して、書き出すところまで——動画づくりをひととおり自分で進めてしまうツールがあります(指示すると、あとは自分で作業を続ける「Claude Code」という AI だけで動きます)。頼めば、動画は丸ごと出てきます。ただ、ただ頼むだけでは「なんとなく」で終わります。効く一本になるかどうかには、コツがある。しかもそのコツは、素材の出来ではなく「並べ方」の側にあります。どういうことか、道具の中身を開いて順に見ていきます。
トップへ戻る1本の動画が、丸ごと出てくる
このツールは、digitalsamba という作者が公開している claude-code-video-toolkit という公開プロジェクトです。人がフレームを一枚ずつ並べていく編集ソフトとは、出発点が違います。動画そのものが、ひとつの依頼から立ち上がってくる。
中を覗くと、声を作る道具、絵を作る道具、短い映像を作る道具、音楽を作る道具、実際の画面を録画する道具——役割の違う部品が、いくつも同居しています。一覧を眺めるだけでは、どれが主役なのか分かりません。役割で並べ替えてみます。
用途・素材・組み立ての三層
道具を機能の名前で並べると平らに見えますが、何を担っているかで分けると上下がつきます。一番下に素材を作る道具、その上に素材を並べて一本にする組み立て、一番上に「何のための動画か」という用途。用途のタブで作りたい動画を選ぶと、そのすぐ下に組み立て方と使う素材が出て、用途しだいで組み立ての要も入れ替わることが、各層の際立ちで分かります。
用途Purpose
この動画は何のために作るのか。下のタブを選ぶと、その用途で「組み立て方」と「使う素材」がどう決まるかが、すぐ下に出ます。
↑ 用途のタブをひとつ選ぶと、その動画がどう組み上がり、どの素材を使うかが、ここに出ます。同じ素材棚から、用途しだいで別の動画になります。
組み立てComposition
素材をどう並べ、どう繋ぎ、何を画面に出すかを決める層。動画の性格は、ほぼここで決まります。用途を選ぶと、その動画で要になる作業がここで際立ちます。
素材Materials
並べる前の、一つひとつの部品。AIが声・絵・短い映像・音楽を作り、実際の画面録画も部品になります。それ自体はまだ動画ではありません。
素材は、下の段にある
声を作る AI、絵を作る AI、短い映像を作る AI、音楽を作る AI。喋っているように顔を動かすものまであります。重い処理は手元では回さず、外部の高性能なコンピュータ(GPU)に任せ、最後にそれらを一本につなぐ道具が受け持ちます。どれも、いま実在する個別のサービス(声なら ElevenLabs、絵なら FLUX など)を組み合わせたものですが、名前は今は覚えなくて大丈夫です。
顔ぶれは華やかですが、ここで作られるのはどれも部品です。声の切れ端、一枚の絵、数秒の映像、一続きの音楽。それ単体では、まだ動画の性格を持ちません。性格は、これらをどう並べるかの側から、後で乗ってきます。だから素材は、三層の一番下に置いています。
同じ素材から、二つの性格
このツールキットには、組み立ての分岐が両方とも入っています。ひとつは声を合成して語る動画。もうひとつは、声を当てず、触れる成果物を無音のまま実演する動画——実際の画面を、そのまま録画して見せる作り方です。下の二つを切り替えると、同じ素材棚から、組み立ての段がどう変わるかが出ます。
並び順が、設計図になっている
このツールが公開している作業の流れは、8つの段が決まった順で並んでいます。素材を作る段(「素材を集める」「音をつける」)は、この並びの一部でしかありません。台本が先にあり、場面の見直しと体裁づくりが素材の前後に挟まり、最後に下見で確かめてから書き出す。この段の置き方そのものが、組み立て層の設計図です。
公開されている8段の流れ








声をつける段(Audio)を抜けば、無音の実演に寄ります。素材を集める段を実画面の録画に振り向ければ、語りではなく見せる動画に寄ります。並びは固定でも、各段に何を入れるかで性格が動く。組み立て層は、道具の集まりというより、この段取りの設計のことです。
素材は、もう安く量産できる
素材を作る費用は、思ったより小さく収まります。公開された目安では、合成した声がひと区切りでおよそ1セント、AIで作る映像クリップが1本でおよそ23セント。一本の動画を組み上げるのに、素材代がボトルネックにはなりにくい水準です。
数値は公開されている目安で、使う道具やGPUの選び方で動きます。見るべきは桁です——素材が安く量産できるなら、難しさはもう「どう作るか」ではなく「どう並べるか」の側に移っています。
素材が安くいくらでも出せる時代に、動画を分けるのは素材の質より、組み立ての判断です。何を語り何を語らないか、語る代わりに何を触らせるか。費用が下がるほど、上の層の選び方が前に出てきます。
中身そのものを見たいとき
8段の並び順も、使っている道具の一覧も、公開リポジトリの説明書(README)にそのまま書かれています。同じ中身を用途・素材・組み立ての三層に置き直すと、性格がどこで決まるかが見えてきます。新しい事実を足したわけではなく、置き場所を変えただけです。
Source · digitalsamba
github.com/digitalsamba/claude-code-video-toolkitコツは、素材より「並べ方」
頼めば、素材は勝手に出てきます。声も、絵も、短い映像も、安く。だとすると、出来上がりの良し悪しを決めるのは、もう素材の側ではありません。同じ部品でも、並べ方を変えれば別物になる——上の分岐を切り替えると、すぐ分かります。
だからコツは、ひとつ。作りはじめる前に「何のために、どう並べるか」を先に決めること。素材を盛るより、そこに時間をかける。動画にかぎらず、AIに何かを作ってもらうときは、だいたいこれが効きます。