AntigravityによるYouTube動画変換 - 君のてのひらから

「あとで見る」リストに溜まっていくYouTube動画たち。良質なコンテンツが増えた現代において、これらを消化しきれないことは、多くの人にとって共通の悩みではないでしょうか。私もその一人です。

ただ動画を流し見するだけでは、知識として定着しません。かといって、毎回メモを取りながら見るのは時間がかかりすぎる。そこで今回は、Google DeepmindのAIエージェント「Antigravity」の手を借りて、YouTube動画を半自動的に「使える知識（Obsidianノート）」に変換するワークフローを構築してみました。

これが予想以上に快適だったので、備忘録としてまとめておきます。

なぜ「動画」ではなく「テキスト」なのか

そもそも、なぜ動画をわざわざテキスト化する必要があるのでしょうか。これには、私自身の「認知特性」が大きく関わっています。

私は、動画や音声から情報を取得するよりも、テキストやブログなどの文字情報から情報を取得する方が圧倒的に得意なのです。動画は時間の拘束があり、自分のペースで読み進めることができません。一方でテキストなら、斜め読みで全体を把握したり、重要な部分だけを熟読したりと、情報の摂取速度を自分でコントロールできます。

「動画を見るのが億劫で、つい積ん読（積ん見）にしてしまう」この悩みの根源は、単なる時間不足ではなく、この認知特性とのミスマッチにあったのかもしれません。だからこそ、動画の内容を「自分が最も消化しやすいテキスト形式」に変換することは、私にとって単なる時短以上の意味を持つのです。

なぜ「Antigravity」なのか

単なる「要約ツール」なら世の中にたくさんあります。しかし、私が求めていたのは「自分のObsidian保管庫（Vault）に、自分の好みのフォーマットで、自動的に保存される」ことでした。

文脈の理解: 単なる要約ではなく、動画の「何が重要か」を深掘りしてほしい。
行動への接続: 「いい話だった」で終わらせず、「明日から何をするか（Action Items）」を提示してほしい。
Obsidian連携: 既存のナレッジベースとシームレスに統合したい。

これらを満たすために、今回はAntigravityという強力なエージェント環境を活用しました。Antigravityは、単にコードを書くだけでなく、ターミナル操作やファイル管理まで自律的にこなしてくれる、まさに「ペアプログラミング」の相手です。

システムの全体像

Antigravity上で構築したワークフローはシンプルです。 AntigravityでObsidian Vaultのルートディレクトリをフォルダで読み込んでいます。

タスク管理: task.md に処理したい動画のURLをリストアップする。
字幕取得: Antigravityが yt-dlp を使って動画の字幕データ（Transcript）をダウンロードする。
分析・生成: Antigravityが字幕を読み込み、Geminiモデルで内容を分析。指定したフォーマットのMarkdownを作成する。
保存・整形: 作成されたノートを 0_Inbox に保存し、Linterでフォーマットを整える。

私がやるのは、最初のリストアップと、最後に出来上がったノートを確認するだけです。Antigravityが裏側でせっせと手を動かしてくれる様子は、見ていて頼もしいものがあります。

Antigravityへの指示書 (Workflow)

Antigravityが優れているのは、自然言語で書かれた「ワークフロー（手順書）」を理解し、その通りに実行してくれる点です。今回作成した指示書（.agent/workflows/youtube_summary.md）は以下のようになっています。

# YouTube Summary Workflow

This workflow guides the AI to summarize a YouTube video and save it as a note in the user's Obsidian Vault.

## 1. Analyze Video

1. **Visit URL**: Use the browser tools to visit the provided YouTube URL.
2. **Extract Metadata**: Get the Video Title, Channel Name, and Upload Date.
3. **Extract Content**:
    - **Prioritize Transcript**:
        - Use `yt-dlp` to download auto-generated subtitles (if available):
          `yt-dlp --write-auto-sub --sub-lang ja --skip-download --output "transcript" [URL]`
        - Read the resulting `.vtt` file to get the full text.
    - If no transcript is available, use the video description and visual context.
4. **Check Comments**:
    - Scroll down to read top comments.
    - Look for supplementary information, corrections, timestamp summaries, or interesting discussions that add context to the video.

## 2. Generate Summary

Construct a markdown note with the following structure:

(中略: ここに具体的なMarkdownテンプレートを記述)

## 3. Save Note

1. **Determine Filename**: Use the format `0_Inbox/YouTube - [Title].md`.
2. **Frontmatter**: Add metadata like created date, tags, and URL.
3. **Write File**: Use `write_to_file` to save the content.

このように、「字幕を優先して取得せよ」「コメント欄も確認せよ」といった具体的な振る舞いを定義しておくことで、毎回安定した品質のアウトプットが得られます。

ノート構成

「出力フォーマット」以下の通りです。ただの要約では意味がありません。「知識を血肉にする」ために「なにか行動する」ことを提案する構成を目指しました。

1. Summary (3行要約)

まずは全体像を掴むために、簡潔な要約を配置。

2. Key Takeaways (重要なポイント)

箇条書きで、動画の核心部分を抽出します。

3. Deep Dive (深掘り解説)

ここがAIが頑張るポイントです。表面的な情報の羅列ではなく、動画内で語られた概念や技術について、詳細な解説を生成してもらいます。

4. Action Items (アクションアイテム)

ここが最重要です。 動画の内容を踏まえて、「具体的にどのような行動を取るべきか」をリスト化します。例えば、「Gemini 3の動画」であれば、「Geminiアプリの設定を確認する」「自社のスライドをアップロードしてプロンプトを作る」といった具体的なToDoが生成されます。

5. Community Insights (コミュニティの反応)

（オプションですが）コメント欄の反応なども含めることで、動画に対する客観的な評価も拾えるようにしています。

実際の成果物

実際にこのワークフローで作成したノートがこちらです。

特に「Gemini 3」の解説動画を処理した際は、新機能である「Nano Banana Pro」や「NotebookLM」の使い分けについて、非常にクリアな解説が生成されました。実際に試してみるためのActionも提示されています。自分で15分の動画を食い入るように見てまとめる労力を考えると、いやあ…楽になりました。

まとめ：時間は「思考」と「行動」のために使う

情報の「収集」と「整理」は、AIエージェントが得意とする領域です。私たち人間は、AIが整えてくれた情報を元に、「深く考えること」や「実際に行動すること」に時間を使うべきでしょう。

今回のワークフローは、まさにそのための第一歩です。「積ん読」ならぬ「積ん見」動画がある方は、ぜひAIエージェントを活用して、知識のライブラリを構築してみてはいかがでしょうか。

参考リンク

認知特性について
- 本田式認知特性研究所 | 認知特性テストの本田式認知特性研究所
  - 自分の認知特性を知るための診断テストなどが紹介されています。
Google Antigravity
- Google Antigravity
  - Antigravityのダウンロード先です。
- Google Antigravity のスタートガイド
  - Antigravityの使い方を説明するスタートガイドです。