前回の記事では、Sulphur 2を使用するうえで注意しなくてはならないポイントを紹介しました。
Sulphur 2の注意点とは?無検閲AI動画生成を使う前に知っておきたい法律・倫理・著作権のポイント
「動画版Stable Diffusionみたいなもの」だと思っていた
前回・前々回の記事では、
- 「Sulphur 2が日本クリエイターを変える?」
- 「無検閲AI動画生成の法律・倫理問題」
について書きました。
ただ、調べていくうちに、
「そもそもSulphur 2って何なんだ?」
という、かなり根本的な壁にぶつかりました。
自分は以前、Stable Diffusionをローカル構築して、モデルやLoRAをダウンロードしながらAI画像生成で遊んでいたことがあります。
そのため、最初は
「動画版Stable Diffusionみたいなものだろう」
くらいの感覚で見ていました。
しかし実際には、
- Sulphur 2
- LTX 2.3
- ComfyUI
- FP8
- GGUF
など、画像生成界隈とは似ているようで少し違う単語が次々に出てきました。
しかし調べ始めると、
- Sulphur 2
- LTX 2.3
- ComfyUI
- FP8
- GGUF
など、次々に専門用語が出てきます。
しかも、それぞれが
- AI本体なのか
- 操作ソフトなのか
- 軽量化データなのか
- 土台モデルなのか
が直感的にわかりにくく、途中からかなり混乱してきました。
ComfyUI、LTX 2.3、GGUF、FP8……。
調べれば調べるほど、 「動画生成AI本体」と「それを動かすもの」の区別が曖昧になっていきました。
今回は、実際に自分が疑問に思ったポイントを整理していきます。
「Sulphur 2」は何なのか
ChatGPTに聞いて最初に混乱した
最初に混乱したのは、
「Sulphur 2って、結局“何”なのか」
という部分でした。
名前だけ見ると、完全に独立した動画生成AIに見えます。
しかし調べると、かなりの頻度で
「LTX 2.3ベース」
という説明が出てきます。
ここでまず、頭の中が少し混乱しました。
「ベースって何だ?」 「じゃあLTX 2.3が本体なのか?」 「Sulphur 2は追加データみたいなものなのか?」
という疑問が次々に出てきます。
Stable Diffusionを触ったことがある人なら、この感覚は少しわかるかもしれません。
例えば、Stable Diffusion界隈でも、
- ベースモデル
- 派生モデル
- LoRA
- チェックポイント
など、似たような単語が大量に存在していました。
そのため、自分の中では最初、
「Sulphur 2も、Stable Diffusion界隈でいう“派生モデル”みたいなものなのでは?」
という認識になっていきました。
他ジャンルで例えると何に近い?
調べながら整理していくと、Sulphur 2は完全にゼロから作られたというより、
「土台の上に調整を加えたモデル」
として理解すると、かなりイメージしやすくなりました。
例えば、
- ゲームでいうMOD
- AndroidでいうカスタムROM
- Stable Diffusion界隈でいう派生モデル
あたりが近い気がします。
もちろん完全に同じではありません。
ただ、“元になる仕組み”が存在し、その上に別方向の調整を加えている、という意味ではかなり近い感覚でした。
現時点での自分なりの理解
現時点では、かなりざっくり言うと、
- LTX 2.3 = 動画生成の土台側
- Sulphur 2 = その土台をベースに調整された派生モデル
という理解で落ち着いています。
少なくとも、自分が最初にイメージしていた
「Sulphur 2単体で全部完結しているAI」
という認識とは、少し違っていました。
ComfyUIって何?
最初は「動画生成AI本体」だと思っていた
次に混乱したのがComfyUIです。
名前だけ見ると、かなりAIモデルっぽい名前をしています。
そのため最初は、
「ComfyUI = 動画生成AI本体」
くらいの認識でいました。
しかし調べていくと、実際には全然違いました。
ComfyUIは“AIを動かすための作業台”だった
ComfyUIはAIそのものではなく、
「AIを操作するための環境」
に近い存在でした。
画像生成AIを触ったことがある人なら、AUTOMATIC1111やForgeのような立ち位置をイメージすると近いかもしれません。
ただ、ComfyUIはさらに独特で、
- 画像を読み込む
- モデルを選ぶ
- 動画化する
- 出力する
といった処理を、“箱”と“線”でつないでいきます。
最初に画面を見た時は、正直かなり圧倒されました。
というのも、一般的なソフトのような
- 「生成」ボタン
- 「開始」ボタン
- シンプルな設定画面
みたいなものを想像していたからです。
しかし実際には、
「処理そのものを組み立てる」
という感覚に近いUIでした。
なぜみんなComfyUIを使っているのか
ここも最初は不思議でした。
もっと簡単なソフトがありそうなのに、なぜみんなComfyUIを使うのか。
調べていくと、理由はかなりシンプルでした。
動画生成AIは、画像生成AI以上に処理が多いからです。
- フレーム管理
- モデル切り替え
- 動画出力
- メモリ節約
- ノイズ制御
など、工程が増えるため、細かく処理を組めるComfyUIとの相性が良いようでした。
つまりComfyUIは、
「初心者向けに簡単だから使われている」
というより、
「複雑な処理を柔軟に組めるから使われている」
という感じに近そうでした。
「LTX 2.3」もローカル実行できるなら、無検閲なのでは?
ここが一番混乱した
今回、一番頭がこんがらがったのはここでした。
Sulphur 2について調べていると、かなりの頻度で
「無検閲」 「ローカル実行」 「監視なし」
という言葉が出てきます。
ただ、説明を聞いていると、
「それ、LTX 2.3も同じでは?」
という疑問が強く出てきました。
というのも、LTX 2.3側もローカル実行が可能だからです。
つまり、
- 自分のPCで動かせる
- クラウド監視がない
- 外部サーバーに毎回送らない
という点では、Sulphur 2とかなり近く見えました。
「ローカル実行 = 無検閲」ではなかった
ここで、自分の中で一度整理し直す必要がありました。
最初は単純に、
「ローカルで動けば全部無検閲」
くらいに思っていたからです。
しかし説明を聞いていくと、どうやらそう単純ではありませんでした。
ポイントは、
「モデル自体がどう調整されているか」
のようです。
現時点で理解している違い
今の理解では、
- LTX 2.3 = 基盤モデル
- Sulphur 2 = 無検閲寄りに調整された派生モデル
という整理が近そうです。
つまり、
「ローカル実行だから自由」
というより、
「どんな方向性で調整されたモデルなのか」
が重要ということになります。
ここは正直、かなりややこしいです。
普通に考えると、
- ローカルで動く
- 外部監視がない
なら、全部同じに見えてしまうからです。
実際、自分も途中まで完全にそう思っていました。
ただ、調べていくうちに、
「ローカル実行」と「モデルの方向性」は別問題
という理解に少しずつ変わっていきました。
自分のPCで動くのか問題
自分のPCスペック
- G-Tune(2024年頃購入)
- RTX 4060
- VRAM 8GB
- メモリ32GB
調べてわかったこと
- 8GBは“ギリギリ帯”
- FP8やGGUFという軽量版が存在
- 高解像度や長尺は厳しそうでした
- まずはImage-to-Videoからが無難
正直まだ不安
「動く」と 「快適に使える」は別問題でした。
結局、自分は何をしようとしているのか
最初は「無検閲AI動画生成」が気になった
ただ、調べていくうちに、
- 動画生成AI
- ローカルAI
- GPU性能
- モデル構造
- ComfyUI文化
など、想像以上に“PCオタク文化圏”だったことが見えてきました。
まだ生成成功すらしていない
だからこの記事は、 レビュー記事ではありません。
むしろ、
「動画生成AIを調べ始めた人間が、専門用語の壁にぶつかって整理している途中」
に近いです。
まとめ
- Sulphur 2は動画生成AI“そのもの”というより派生モデル寄り
- ComfyUIはAI本体ではなく操作環境
- LTX 2.3とSulphur 2は“ローカル実行”という点では近い
- ただし“どう調整されたモデルか”に違いがあるらしい
- RTX 4060 8GBでも可能性はあるが、かなり軽量設定前提
そして何より、
「AI動画生成って、思ったより“モデル名”と“周辺ツール”が多すぎる」
というのが、今の率直な感想です。
せっかく調べたので、
次は「実際にやってみた」をお届けできたらなと思います。
読んでくださってありがとうございました。
ではでは。
AI生成をPCで動かす流れを一通り触りたい人向け。
リンク
おススメ商品
こちら、私が長年使ってるおすすめワイヤレスイヤホン、トラックボール、スマホスタンド

コメント