コンテキストウィンドウの革命
Gemini 1.5 Proは最大200万トークンのコンテキストウィンドウを提供し、大規模言語モデルの可能性を根本的に変えました。コードベース全体、数時間の動画、数千ページのドキュメントを一度のリクエストで処理できるようになり、AIとの対話方法そのものが変化しています。
Gemini 1.5 Proの主要機能
| 機能 | 性能 |
|---|---|
| コンテキストウィンドウ | 最大200万トークン(標準100万) |
| 入力モダリティ | テキスト、画像、音声、動画、コード |
| 出力 | テキスト、コード、構造化データ |
| 最大出力トークン | 8,192 |
| 対応言語 | 100以上 |
| 入力価格 | 100万トークンあたり$1.25〜$10.00 |
| 出力価格 | 100万トークンあたり$10.00〜$40.00 |
マルチモーダル入力
Gemini 1.5 Proはテキスト、画像、音声、動画を単一リクエストでネイティブ処理します。プレゼンテーションのスライド画像と音声ナレーションを同時に解析するといったことが可能です。
Node.js SDKのセットアップ
Google公式のJavaScript SDKを使用すると簡単に統合できます:
npm install @google/generative-ai
const { GoogleGenerativeAI } = require("@google/generative-ai");
const genAI = new GoogleGenerativeAI(process.env.GEMINI_API_KEY);
const model = genAI.getGenerativeModel({ model: "gemini-1.5-pro" });
const result = await model.generateContent(prompt);
console.log(result.response.text());
ストリーミング応答
リアルタイムアプリケーション向けに、低レイテンシなストリーミング出力が利用できます。generateContentStream メソッドを使用して、トークンが生成され次第順次処理できます。
システムインストラクション
システムインストラクションを使うと、モデルの振る舞いをグローバルに定義できます。コードレビューアとしての役割や、特定のプログラミングスタイルの強制など、細かな指示を事前に設定できます。
ファンクションコーリング
構造化データの抽出や外部ツールの利用を可能にする関数呼び出し機能も重要です。検索APIやデータベースクエリなどの外部関数をモデルに認識させ、必要なタイミングで呼び出させることができます。
ユースケース
巨大なコンテキストウィンドウを活用した革新的なアプリケーション:
- コードベース全体の解析:リポジトリ全体を渡してアーキテクチャレビュー
- 動画コンテンツ理解:長時間の会議録画から議事録を生成
- 長文書Q&A:数千ページのドキュメントに対する質問応答
- マルチファイル生成:コンテキストを考慮した機能全体の実装生成
- 音声文字起こしと解析:文字起こしと意味理解を1回のパスで実行
料金の考慮点
大きなコンテキストウィンドウを使用すると、トークン消費が急増します。チャンキングによる分割、キャッシュの活用、プロンプトの最適化、バッチ処理などの戦略でコストを管理できます。
Gemini 1.5 Proの巨大なコンテキストウィンドウは、LLMを活用したアプリケーションの可能性を根本的に拡大します。マルチモーダル入力との組み合わせにより、コードベース全体やメディアコレクションを一度に推論できる新しいクラスのAIツールを実現します。
