最近のCopilot in Edgeは動画のハイライトを生成することができる。動画コンテンツに対してテキストコンテンストと同じように概要に生成や内容に関する質問を行うことが可能だ。今回はこうした機能を使って動画そのものを探す方法の例を取り上げる。
連載「Copilot in Windowsを使ってみよう」のこれまでの回はこちらを参照。
まずは動画の候補を提案してもらう
情報ソースのメディアタイプには得手不得手がある。テキストとして情報を提供することが優れているケースもあれば、動画が優れていることもあるし、音声の方が優れていることもある。また、利用するシーンによっても得手不得手が変わってくる。
動画コンテンツは音声情報、テキスト情報以外に、名前のとおり「動画」による情報が得られる点が特徴だ。ものによっては動画でなければ理解しにくいことも多い。
動画コンテンツは便利だが、検索して適切な動画コンテンツを探し出すのはなかなかに時間がかかる。動画の中身は動画を見ないと分からないので、ともかく時間がかかるのだ。今回は生成AIに関する理解を深める動画を探すというシナリオで、どのような使い方ができるかを紹介する。
ここで役立つのがCopilot in Edgeの動画コンテンツを理解する能力だ。Copilot in Edgeを使うことで動画コンテンツの要約を知ることができるので、動画検索がこれまでよりも圧倒的に速くなる。
ここでは生成AIに関する理解を深めるために、大規模言語モデル(LLM:Large Language Model)について調査をするというシナリオを取り上げる。次のようにCopilot in Edgeのプロンプトに指示を出し、関連していそうな動画を挙げてもらう。
大規模言語モデル(LLM:Large Language Model)について解説した学術性の高い動画を教えてください。YouTubeに掲載されているものでお願いします。使われている自然言語については問いません。
Copilotは次のように回答している。
もちろんです!以下のYouTube動画が大規模言語モデル(LLM)について学術的に解説しています:
- Introduction to Large Language Models - Google Cloud Techによる15分間の動画で、LLMの基本概念、利点、課題、使用方法について説明しています
- Intro to Large Language Models - Andrej Karpathyによる1時間の講演で、LLMのトレーニング方法、動作原理、セキュリティの課題、将来の方向性について詳しく解説しています
- Large Language Models - Explained via Readable Video - YouTube - Common Craftによる2分間の動画で、音声なしで視覚的にLLMの仕組みを説明しています
これらの動画が役に立つことを願っています!他に質問があれば教えてください。
ここでCopilotは3つの候補を挙げた。これはあくまでも最初のとっかかりにすぎないのだが、まずはこれらの動画について内容をチェックしていく。これまでであればそれぞれ動画を見るのだが、次はCopilotを使ってこれら動画のハイライトを生成させてその内容を確認する。それぞれ次のようにハイライトが生成された。
Introduction to Large Language Modelsのハイライト
ビデオのハイライトを生成してください。日本語でお願いします。
Copilotは次のように回答している。
Video summary
このビデオは、大規模言語モデル(LLM)の概要について説明しています。LLMの基本概念、ユースケース、プロンプトチューニング、Googleの生成AI開発ツールについて学べます。
- 大規模言語モデルの基本
- LLMはディープラーニングの一部
- テキスト、画像、音声などを生成
- 汎用的な言語問題を解決
- LLMの特徴
- 巨大なトレーニングデータセット
- 数十億のパラメータ
- 汎用的な問題解決能力
- LLMのメリット
- さまざまなタスクに対応
- 最小限のデータでカスタマイズ可能
- データとパラメータの追加で性能向上
- PaLMの例
- 5,400億個のパラメータ
- 高密度デコーダのみのトランスフォーマーモデル
- 複数のタスクを効率的に処理
- 効率的なチューニング方法
- パラメータ効率的チューニング方法(PETM)
- モデルを複製せずにチューニング
- Generative AI Studioで簡単にカスタマイズ
このビデオは、LLMの基本から応用まで幅広くカバーしています。
Intro to Large Language Modelsのハイライト
ビデオのハイライトを生成してください。日本語でお願いします。
Copilotは次のように回答している。
パート1
ビデオの要約
このビデオは、大規模言語モデル(LLM)の基本的な概念とその動作について説明しています。特に、Meta AIのLlama 2モデルを例に取り、モデルの構造、トレーニング方法、そして実際の使用方法について詳しく解説しています。
- 大規模言語モデルの概要
- Llama 2モデルの紹介
- モデルのパラメータと実行ファイルの説明
- オープンウェイトモデルの利点
- モデルのトレーニング
- インターネットからのテキストデータ収集
- GPUクラスターを使用したトレーニング
- トレーニングのコストと時間
- ニューラルネットワークの動作
- 次の単語予測タスクの説明
- モデルの圧縮と予測の関係
- モデルの「夢」の例
- トランスフォーマーネットワークの構造
- ネットワークのスキーマティック図
- パラメータの最適化方法
- 知識データベースの構築
- アシスタントモデルの取得
- プレトレーニングとファインチューニングのプロセス
- 質問と回答のデータセットの使用
- モデルの評価と改善方法
このビデオは、大規模言語モデルの基本的な理解を深めるのに役立ちます。
パート 2
Video summary
このビデオは、大規模言語モデル(LLM)の現状と将来について説明しています。特に、オープンソースとプロプライエタリモデルの違い、スケーリング法則、ツールの使用、マルチモーダル機能、システム1とシステム2の思考、自己改善、カスタマイズの可能性について詳しく解説しています。
- モデルのパフォーマンス比較
- プロプライエタリモデルが最も高性能
- オープンソースモデルは性能が劣るが柔軟性が高い
- オープンソースエコシステムの成長
- スケーリング法則
- モデルのパフォーマンスはパラメータ数とテキスト量に依存
- 大規模なモデルとデータで精度が向上
- アルゴリズムの進歩はボーナス
- ツールの使用
- LLMはツールを使用してタスクを実行
- ブラウザや計算機を利用
- データの収集と分析が可能
- マルチモーダル機能
- 画像の生成と認識
- 音声の認識と生成
- テキストと画像の統合
- システム1とシステム2の思考
- システム1は直感的で迅速
- システム2は論理的で時間がかかる
- LLMのシステム2の実現が課題
- 自己改善とカスタマイズ
- アルファゴの自己改善モデル
- 報酬基準の欠如が課題
- カスタマイズの可能性とGPTs App Store
このビデオは、LLMの進化とその応用についての深い洞察を提供しています。
パート 3
ビデオのハイライト
このビデオは、大規模言語モデル(LLM)のセキュリティに関するさまざまな攻撃方法とその防御策について説明しています。
- Base64エンコーディングと拒否データ
- Base64はバイナリデータのエンコーディング方法
- LLMはBase64を理解する
- 拒否データは主に英語で訓練されている
- 普遍的な転送サフィックス
- 特定のサフィックスでモデルを「脱獄」可能
- 最適化により生成されたサフィックス
- 新しいサフィックスを再生成可能
- 画像を使った攻撃
- ノイズパターンを含む画像でモデルを「脱獄」
- ノイズは最適化により生成
- 新しいノイズパターンを再生成可能
- プロンプトインジェクション攻撃
- 画像に隠されたテキストで新しい指示を与える
- ウェブページからのプロンプトインジェクション
- Googleドキュメントを使ったデータの流出
- データポイズニング攻撃
- トリガーフレーズでモデルを破壊
- 訓練データに悪意のあるテキストを含める
- トリガーフレーズでモデルの予測が崩れる
このビデオは、LLMのセキュリティに関する新しい研究とその課題について詳しく説明しています。
Large Language Models - Explained via Readable Videoのハイライト
ビデオのハイライトを生成してください。日本語でお願いします。
Copilotは次のように回答している。
ビデオのハイライト
このビデオは、大規模言語モデル(LLM)について説明しています。以下は主なポイントです。
- AIの質問応答
- 人間のような回答を提供
- ナイフやパンの知識を持つように見える
- 大規模言語モデルの基礎
- インターネット上のすべての単語をスキャン
- 1兆語以上のスナップショットを作成
- 単語のパターン分析
- 単語やフレーズの共通パターンを検出
- 文脈を理解する能力
- 数学的な単語予測
- 次に来る単語を予測
- 文脈に基づいて適切な単語を選択
- LLMの限界
- 間違いやバイアスが含まれる可能性
- 注意して使用する必要がある
このビデオは、LLMの基本的な仕組みとその限界について簡潔に説明しています。
ハイライトをチェックして見る動画を選別、次の検索文章を再考する
ハイライトを生成することで動画を見ることなくその中身の予測を立てることができる。何度も説明するように生成AIの生成するデータはパーフェクトであるとは限らないし、嘘が混じっている可能性があることは常に意識しておく必要がある。それを踏まえても動画のハイライトをまとめたテキストを動画を見る前にチェックできることの時短効果は大きい。
この段階で気になる動画が出てきたら動画を閲覧すればよく、閲覧中に気になることがあったら、動画を見ながら隣のCopilotプロンプトに気になることについて質問を入力するなどを操作を行う。このように利用することで効果的に学習を進めることができる。
ハイライトを読みながらより適切なプロンプトへの指示方法が分かったら、再度プロンプトに指示を出して別の動画を提案してもらい、同じことを繰り返す。
または、ハイライトを読んでいるうちに他に気になることがでてきたらそれを新しくプロンプトに指示してもよい。ともかく、テキストコンテンツに対して行うのと同じことを動画コンテンツに対しても行うことができるというのがポイントだ。
執筆時点ですべてのYouTUbe動画がCopilotによって扱うことができるコンテンツというわけではないのだが、以前と比べて便利になっていることは間違いがない。今後この状況がどのように推移していくかはOpenAI、Microsoft、Googleなど主要プレーヤーの動きをよく見ておく必要がある。生成AIに関する状況はかなりはやいペースで変わっている。今後も目が離せないところだ。
付録: ショートカットキー
ショートカットキー | 内容 |
---|---|
「Windows」+「C」 | Copilot in Windowsの表示・非表示を切り替え |
「Ctrl」+「Shift」+「.」(Microsoft Edge) | Copilotパネルの表示・非表示を切り替え |
付録: 対応バージョン
OS | バージョン |
---|---|
Windows 11 | Windows 11, version 22H2以降 |
Windows 10 | Windows 10, version 22H2以降のProおよびHome |
参考
- Copilot in Windows & Other AI-Powered Features | Microsoft
- Copilot documentation | Microsoft Learn
- Adopt, extend and build Copilot experiences across the Microsoft Cloud | Microsoft Learn
- Bringing the power of AI to Windows 11 - unlocking a new era of productivity for customers and developers with Windows Copilot and Dev Home - Windows Developer Blog