
Meta anunció el lanzamiento de SAM Audio, un nuevo modelo de inteligencia artificial orientado a la separación y edición de audio, que promete facilitar tareas complejas del procesamiento sonoro mediante el uso de indicaciones de texto, referencias visuales y marcas temporales.
El anuncio fue realizado por Mark Zuckerberg, quien presentó la herramienta como una evolución del proyecto Segment Anything, una familia de modelos desarrollados por la compañía para segmentar elementos específicos dentro de imágenes, videos y ahora también audio.
Una de las principales novedades del modelo es su enfoque multimodal. Por un lado, permite ingresar indicaciones de texto, como “voz cantando” o “ruido de tráfico”, para extraer sonidos específicos. También admite indicaciones visuales, que consisten en seleccionar dentro de un video a la persona u objeto que produce el sonido que se desea aislar.
Además, incorpora por primera vez en este tipo de desarrollos las llamadas indicaciones de intervalo, que permiten marcar segmentos de tiempo concretos en los que ocurre el audio objetivo. Esta combinación busca replicar la forma en que las personas identifican y piensan el sonido en situaciones cotidianas.
Desde Meta señalaron que este enfoque unificado supera la fragmentación habitual de las herramientas de edición de audio, que hasta ahora estaban diseñadas para usos muy específicos, como la limpieza de voces o la separación de pistas musicales.
SAM Audio ya se encuentra disponible para pruebas en el Segment Anything Playground, una plataforma que permite a cualquier usuario experimentar con los modelos de la colección utilizando archivos propios o materiales provistos por Meta. El modelo también puede descargarse para su evaluación.