Meta Segment Anything Model 2 (SAM 2) es el último avance en tecnología de segmentación de objetos de Meta AI. Basado en la base del SAM original, SAM 2 es el primer modelo de segmentación unificado capaz de manejar tanto imágenes como videos con una precisión e interactividad extraordinarias. Introduce una arquitectura robusta basada en memoria que le permite rastrear y refinar objetos a través de fotogramas de video, lo que lo hace adecuado para una variedad de aplicaciones reales que van desde la edición creativa hasta la automatización industrial.
SAM 2 aprovecha un extenso conjunto de datos de entrenamiento geográficamente diverso — el conjunto de datos SA-V — lo que garantiza su capacidad para mantener un alto rendimiento de segmentación sin entrenamiento previo (zero-shot) en objetos, escenas y escenarios que nunca ha visto antes. Esto convierte a SAM 2 en una opción ideal tanto para investigadores como para desarrolladores que crean sistemas de IA de próxima generación que requieren una segmentación de alta calidad con una intervención mínima del usuario.
Características Clave
Segmentación Unificada de Imágenes y Videos: SAM 2 está diseñado para segmentar objetos sin interrupciones a través de imágenes fijas y fotogramas de video dinámicos. Esta flexibilidad permite a los usuarios adoptar un solo modelo para múltiples tipos de medios.
Interacción mediante Prompts: Los usuarios pueden seleccionar objetos utilizando clics, cajas o máscaras. Estos prompts guían al modelo para identificar y segmentar el objetivo deseado con gran precisión.
Módulo de Memoria para Seguimiento Persistente: Una memoria por sesión captura información sobre el objeto objetivo, permitiendo un seguimiento continuo en todos los fotogramas de video, incluso cuando los objetos desaparecen temporalmente de la vista.
Refinamiento mediante Prompts Adicionales: Más allá de la segmentación inicial, los usuarios pueden proporcionar prompts extra en cualquier fotograma para corregir o perfeccionar las máscaras de los objetos.
Arquitectura de Streaming para Procesamiento en Tiempo Real: SAM 2 procesa los fotogramas de video individualmente mediante inferencia por streaming, permitiendo aplicaciones interactivas en tiempo real sin sacrificar velocidad.
Robustez Zero-Shot: Gracias a sus datos de entrenamiento diversos, SAM 2 ofrece buen rendimiento incluso en objetos o entornos no vistos previamente.
Rendimiento de Última Generación: Supera a los principales modelos de segmentación en tareas de imagen y video, requiriendo menos tiempo de interacción que otros métodos interactivos.
Acceso Abierto: Meta ha publicado el modelo SAM 2 preentrenado, su conjunto de datos SA-V, demostraciones y código para uso público, fomentando la innovación en investigación y desarrollo.
Casos de Uso
Edición Creativa de Video: Rastrear y manipular objetos a lo largo de videos para efectos especiales, composición o transformaciones de escenas.
Automatización Industrial: Identificar y monitorear componentes específicos o partes móviles en grabaciones de manufactura o control de calidad.
Investigación y Desarrollo: Servir como línea base robusta para investigación académica en segmentación, seguimiento de objetos y visión por computadora.
Creación de Contenido Asistida por IA: Permitir que modelos posteriores, como generadores de video, realicen ediciones precisas basadas en resultados segmentados.
Análisis de Eventos: Rastrear jugadores, equipo o acciones en grabaciones deportivas para análisis y revisiones de rendimiento.
Imagen Médica: Segmentar estructuras anatómicas o instrumentos en transmisiones de video quirúrgicas o de diagnóstico.
Preguntas Frecuentes
P1: ¿Qué diferencia a SAM 2 del SAM original?
SAM 2 amplía el Segment Anything Model original a la segmentación de video incorporando un módulo de memoria, que permite el seguimiento persistente de objetos a través de fotogramas manteniendo una inferencia rápida.
P2: ¿Cómo interactúo con SAM 2?
Puedes proporcionar prompts de interacción como puntos, cajas o máscaras, ya sea en imágenes o fotogramas específicos de video. Se pueden usar prompts adicionales para refinar los resultados de segmentación.
P3: ¿Puede SAM 2 usarse en transmisiones de video en vivo?
Sí, gracias a su arquitectura de streaming, SAM 2 admite segmentación interactiva en tiempo real en videos en vivo o grabados.
P4: ¿Qué es el conjunto de datos SA-V?
El conjunto de datos SA-V contiene más de 600,000 secuencias de máscaras de objetos (masklets) en 51,000 videos de 47 países. Se ha publicado como código abierto para promover la investigación y la reproducibilidad.
P5: ¿SAM 2 requiere conocimiento previo de los objetos?
No, SAM 2 es capaz de segmentación zero-shot, lo que significa que puede segmentar con éxito objetos que nunca ha encontrado durante su entrenamiento.
P6: ¿Es SAM 2 gratuito para usar?
Meta ha puesto el modelo, el conjunto de datos y la demostración a disposición pública para la comunidad investigadora y desarrolladores.
P7: ¿Se pueden integrar las salidas de SAM 2 con otros sistemas de IA?
Absolutamente. Los resultados de segmentación de SAM 2 pueden alimentar modelos de generación de video, sistemas de seguimiento de objetos, herramientas analíticas o flujos de creación de contenido interactivo.
P8: ¿Cómo maneja SAM 2 los objetos ocultos?
El módulo de memoria conserva contexto de fotogramas anteriores, lo que permite a SAM 2 rastrear objetos incluso durante o después de oclusiones parciales o completas.
Con su rendimiento revolucionario, control interactivo mediante prompts y acceso abierto para la experimentación, Meta Segment Anything Model 2 representa un avance significativo en las capacidades de segmentación visual para imágenes y videos, ofreciendo amplias oportunidades para la innovación en industrias y ámbitos creativos.