ニュースレター
コミュニティに参加
最新のニュースとアップデートを受け取るためにニュースレターを購読してください
画像と動画の両方で、高速かつ正確な物体セグメンテーションを実現し、リアルタイムのインタラクティブ編集を可能にする最先端のAIモデル。
Meta Segment Anything Model 2 (SAM 2)は、Meta AIが開発した最新の物体セグメンテーション技術です。初代SAMの基盤を活かし、SAM 2は画像と動画の両方に対応できる初の統合型セグメンテーションモデルで、非常に高精度かつインタラクティブな処理が可能です。堅牢なメモリベースのアーキテクチャを導入し、動画フレーム全体でオブジェクトの追跡と洗練を行うことができ、クリエイティブ編集から産業オートメーションまで幅広い実世界の用途に適しています。
SAM 2は、大規模かつ地理的に多様な学習データセット — SA-Vデータセット — を活用しており、未学習の物体やシーン、状況でも強力なゼロショット性能を維持します。これにより、最小限のユーザー入力で高品質なセグメンテーションを必要とする次世代AIシステムを構築する研究者や開発者に最適な選択肢となります。
統合型画像・動画セグメンテーション: SAM 2は静止画像と動的な動画フレームの両方でシームレスに物体を切り出せるよう設計されています。これにより、複数のメディアタイプで単一モデルを使用可能です。
プロンプト可能なインタラクション: ユーザーはクリック、ボックス、マスクなどのプロンプトを使って対象物を指定できます。これらのプロンプトがモデルを誘導し、高精度な対象セグメンテーションを行います。
永続的トラッキングのためのメモリモジュール: セッションごとのメモリが対象物に関する情報を保存し、動画全フレームにわたって継続的な追跡が可能になります。対象物が一時的に視界から消える場合でも追跡を維持します。
追加プロンプトによる精緻化: 初期のセグメンテーション後も、任意のフレームで追加のプロンプトを与えることで、マスクを修正・精緻化できます。
リアルタイム処理のためのストリーミングアーキテクチャ: SAM 2は動画フレームをストリーミング推論で個別処理し、インタラクティブかつリアルタイムのアプリケーションを速度を損なわずに実現します。
ゼロショットの堅牢性: 多様な学習データにより、未確認の物体や環境に対しても高い精度を発揮します。
最先端の性能: 動画・画像タスクの両方で主要なセグメンテーションモデルを上回り、他のインタラクティブ方式よりも少ない操作時間で結果を得られます。
オープンアクセス: Metaは事前学習済みのSAM 2モデル、SA-Vデータセット、デモ、コードを公開し、研究・開発の革新を促進します。
Q1: SAM 2は初代SAMと何が違いますか? SAM 2はメモリモジュールを取り入れることで動画セグメンテーションに対応し、フレーム間での永続的な物体追跡を実現しながら、高速推論性能を維持しています。
Q2: SAM 2とのインタラクション方法は? 画像や特定の動画フレームに対してポイント、ボックス、マスクなどのプロンプトを入力します。追加プロンプトで結果を精緻化できます。
Q3: ライブ動画でSAM 2を使えますか? はい、ストリーミングアーキテクチャのおかげで、ライブまたは録画動画でリアルタイム・インタラクティブなセグメンテーションが可能です。
Q4: SA-Vデータセットとは何ですか? SA-Vデータセットは、47か国の51K動画から抽出された600K以上の物体マスクシーケンス(マスクレット)を含み、研究と再現性向上のために公開されています。
Q5: SAM 2は事前に対象物の情報が必要ですか? いいえ、SAM 2はゼロショットセグメンテーションが可能で、学習時に見たことのない物体でも正確に分割できます。
Q6: SAM 2は無料で利用できますか? Metaはモデル、データセット、デモを研究者や開発者向けに公開しています。
Q7: SAM 2の出力を他のAIシステムに利用できますか? はい。SAM 2のセグメンテーション出力は、動画生成モデル、物体トラッカー、分析ツール、インタラクティブなコンテンツ制作パイプラインなどに組み込むことができます。
Q8: SAM 2は遮蔽物のある対象物をどう処理しますか? メモリモジュールが前フレームのコンテキストを保持するため、部分的または完全に視界から消えた物体でも追跡が可能です。
その画期的な性能、インタラクティブなプロンプト制御、実験のためのオープンアクセスにより、Meta Segment Anything Model 2は画像と動画における視覚的セグメンテーション能力を大きく前進させ、産業界やクリエイティブ分野での革新の可能性を広げます。