Четвер, 18 грудня 2025 18:14

Meta представила SAM Audio: «Segment Anything» тепер і для звуку

Компанія Meta продовжує революцію в інструментах на основі штучного інтелекту. Слідом за неймовірним успіхом моделі SAM (Segment Anything Model) для обробки зображень, розробники представили її аудіо-аналог — SAM Audio. Це інструмент, який обіцяє змінити підхід до монтажу звуку, роблячи його таким же простим і точним, як ретуш у Photoshop.

Що таке SAM Audio?

SAM Audio — це інноваційна аудіомодель, яка сприймає звуковий потік не як суцільну хвилю, а як набір окремих «аудіооб'єктів». Якщо раніше для того, щоб прибрати випадковий шум або виділити голос, потрібні були години кропіткої роботи зі спектрограмами, то тепер ШІ робить це миттєво.

Ключові можливості моделі

Meta навчила SAM Audio розпізнавати та ізолювати звуки з феноменальною точністю. Ось основні функції, які стануть доступними для творців контенту:

  • Точне виділення об'єктів: Ви можете вказати моделі на конкретний звук (наприклад, гавкіт собаки, дзвін ключів або шум кондиціонера), і вона відокремить його від решти міксу.

  • Інтелектуальна ізоляція: Модель автоматично розрізняє людський голос, фонову музику та спецефекти.

  • Незалежне редагування: Після того, як звуки розділені на шари, ви можете змінювати гучність, додавати ефекти або повністю видаляти будь-який елемент, не впливаючи на інші.

  • Швидкий реміксинг та саунд-дизайн: Для музикантів та звукорежисерів це означає можливість миттєво отримувати "стеми" (окремі доріжки) з уже готових записів.

Як це працює?

В основі SAM Audio лежить принцип "promptable audio segmentation" (сегментація звуку за запитом). Користувач може взаємодіяти з моделлю різними способами:

  1. Текстовий запит: Наприклад, "виділити лише звук гітари".

  2. Візуальна позначка: Вибір певного сегмента на спектрограмі.

  3. Еталонний звук: Надання прикладу звуку, який потрібно знайти та ізолювати.

Чому це важливо?

Для індустрії медіа це справжній прорив. Подкастери зможуть за секунди очищати записи від сторонніх шумів. Відеоографи — витягувати чистий діалог навіть із дуже гучних локацій. А розробники ігор зможуть створювати динамічне звукове середовище з небаченою раніше швидкістю.

Meta вкотре підтверджує свою лідерську позицію у сфері генеративного ШІ, надаючи інструменти, що роблять професійну якість доступною кожному.

Ознайомитися з технічними подробицями та демонстраціями можна в офіційному блозі Meta AI: ai.meta.com/blog/sam-audio/

Читати 93 разів

Створення сайту