«Робот сочинит симфонию?» Как генерировать музыку при помощи нейросетей и что с ними не так
Если в 2022–2023 годах мир больше удивлялся возможностям генеративных ИИ в иллюстрациях и видео, то с 2024-го одним из основных модных трендов стала генерированная музыка. Нейросети способны написать мелодию и текст, аранжировать любую песню в том или ином музыкальном стиле или выдать музыкальную «импровизацию». Казалось бы, в 2025-м бум нейрохитов обеспечен, но не всё так просто и радужно. В подводных камнях сгенерированной ИИ музыки «Секрет» разобрался вместе с экспертами.
/imgs/2025/03/13/09/6756693/f3b4c8afffece5c584ff17a323936c807022c351.png)
© Коллаж: «Секрет фирмы», Freepik, recraft.ai
Как нейросети создают музыку
Принцип работы «музыкальных» нейросетей не отличается от всех остальных: ИИ обучается на огромном массиве данных, после чего учится искать в них закономерности, компилировать под запрос пользователя и выдавать более-менее связный ответ на вопрос или промпт (описание задачи для нейросети).
Основное отличие в том, что такие нейросети обучают на большом объёме аудиофайлов. Нет, их в теории можно научить и другим трюкам, например написанию текстов или кода, но объём «памяти» у нейросетей всё-таки ограничен. Именно поэтому узконаправленные генеративные инструменты справляются со своими задачами в среднем лучше, чем «специалисты широкого профиля».
Для обучения обычно используют музыку, находящуюся в свободном доступе, то есть свободную от авторских прав и лицензий. По крайней мере, это декларируется, но по факту не всегда соблюдается.
Поэтому нейросети часто отвечают отказом на прямой запрос пользователя использовать стиль или голос какого-то из популярных живых исполнителей. Однако это не значит, что она не знает, о чём речь, и не может этого в принципе — просто в неё вшит ограничитель во избежание претензий правообладателей.
Выучив шаблоны разных композиций, нейросеть может писать похожие мелодии. Многое зависит от базы данных: если обучить ИИ на музыке Элвиса Пресли, то нейросеть будет генерировать нечто похожее на его песни.
/imgs/2025/03/13/08/6756495/8185de3002d7bd98cf7c60d98d30ae7100222e2c.png)
© Создано при помощи нейросети
Виды нейросетей для генерации музыки и что они умеют
Нейросети делятся на виды по способу создания музыки:
- генерация нот — это когда нейросеть может создать мелодию из последовательности нот, исполненных разными инструментами, в разных темпах, разных жанров или стилизовать имеющуюся мелодию под какой-то стиль. Например, исполнить современную поп-песню в стиле рокабилли, а классику — в «металлическом» звучании.
- генерация аудиосигнала — в этом случае нейросеть способна генерировать не только ноты, но и разнообразие человеческих голосов, тональностей, аудиоэффектов, и в принципе больше тонкостей, необходимых для настоящей музыки.
Также существует более предметное деление по «специализации» нейросетей. Глава отдела исследований в области ИИ дирекции разработки и развития цифровой платформы Университета-2035 Ярослав Селиверстов перечислил основные виды:
- Трансформеры (MusicLM, Jukebox). Эти ребята хороши для создания последовательностей: мелодии, текст. Они умеют работать с длинными связями в музыке, что позволяет создавать более сложные композиции.
- GAN (Jukedeck и другие). Используются, чтобы музыка звучала максимально реалистично, имитируя инструменты.
- Diffusion-модели (Riffusion, Stable Audio): Сейчас это хайп. Генерируют аудио, постепенно «очищая» шум. В 2023–2024 годах – это один из самых популярных подходов.
- VAE (всякие автоэнкодеры). Эти умеют сжимать музыку, чтобы потом её можно было модифицировать, например менять жанры.
- Нейросети, которые понимают структуру (OpenAI, MuseNet). Могут смешивать несколько жанров и инструментов в одном треке.
Также большинство музыкальных нейросетей умеют работать с готовыми пресетами — музыкальными дорожками, загруженными пользователем. Например, они умеют разделять музыкальные дорожки, отделять музыку от вокала, чтобы сделать «минус», «почистить» шумы, поднять басы.
/imgs/2025/03/13/08/6756518/a8aee5fd6074b7e2ed3036294fb805be1e0c723e.png)
© Создано при помощи нейросети recraft.ai
В общем, всё то, что раньше делали специально обученные люди с помощью специальных программ, в которых было сложно разобраться новичку, сейчас может попробовать сделать любой пользователь, способный внятно сформулировать свой запрос нейросетке.
Но, впрочем, и тут тоже таится некоторая сложность. Искусство формулировать промпты (задачи для нейросетей) тоже нарабатывается постепенно. У новичка, скорее всего, получится неидеально, а понимания, что именно нужно изменить до нужного результата, у человека, который с музыкой «на вы», не так много.
Поэтому для того, чтобы не просто баловаться созданием ИИ-музыки, а использовать нейросети как полноценный инструмент для выпуска треков, хорошо бы немного поучиться и промптингу, и музыке. Как минимум, знать, чем отличаются разные жанры, какие есть составляющие у трека, как звучат разные инструменты и как называются те или иные звуковые эффекты, которые вы хотите добавить.
Ну и конечно, нужно понимать, в каких случаях обращение к нейросети осмысленно и что от неё можно получить. Селиверстов выделил основные сильные стороны музыкальных нейросетей:
- Стилизация — вот тут ИИ просто зверь. Нужно сделать трек в стиле ретро-синтвейва? Легко! Классический джаз? Без проблем! Он выжмет из жанра всё до капли.
- Аранжировка на автомате: ИИ сам подберет инструменты, гармонии, ритмы. Звучит круто, но иногда предсказуемо.
- Голос — почти как настоящий. Современные модели, вроде Vall-E, умеют копировать тембр и интонации голоса, имитируя различных исполнителей. Пока ещё немного «роботизированно», но прогресс налицо.
- Обработка звука — как по маслу. Мастеринг, шумоподавление, разделение треков — тут ИИ чувствует себя как рыба в воде.
Как составить промпт для музыкальной нейросети: примеры
Эксперты дали несколько советов по составлению промптов для музыкальных ИИ:
- Формулируйте максимально конкретно. Если вы хотите «грустную песню», можно, конечно, так и написать, но «минорная акустическая баллада с виолончелью, темп 60 BPM» выдаст вам более точный и приближенный к желаемому результат.
- Давайте референсы. ИИ понимает, когда вы в промпте делаете отсылки к исполнителям и музыкальным композициям. Так что, если вы хотите музыку «в стиле ранней Леди Гаги» или «как саундтрек к Blade Runner 2049», так и пишите. Но тут немного лотерея: найдёт ли нейросеть нужный образчик в своей базе и не вшито ли в неё ограничение на подражание конкретным исполнителям.
- Не забывайте про желаемую структуру песни. Например: «Куплет → припев → бридж». Лучше ещё и указать длительность каждого сегмента. Если нейросеть ещё и тексты пишет, то задавайте сюжетные ограничения — о чём будет эта песня.
- Не слишком увлекайтесь попытками миксовать несочетаемое. На запросы типа «тяжёлый металл с флейтой в духе нью-эйдж» ИИ может выдать музыкальную кашу, реже — что-то внятное, но не то, что вы запрашивали.
- Корректируйте запрос по ходу дела, поправляйте ИИ, чтобы «допилить» трек. Начните с чего-то общего (жанр, длительность, содержание), а потом добавляйте детали вроде реверса в припеве или женского бэк-вокала на каждой второй строчке.
Пример годного промпта: «Инструментальный трек в стиле 80-х synthwave: пульсирующий бас, аналоговые драм-машины, космические звуковые эффекты. Динамика: начинается с медленного вступления, переходит в энергичный ритм с гитарным соло на 2:30».
Генерировать музыку лучше на основе готового текста — с лирикой музыкальные нейросети справляются хуже, чем с мелодией, они заточены не на это. Однако при желании вы можете сделать полностью нейросетевую композицию, заказав написать текст песен одному из текстовых чат-ботов: ChatGPT, GigaChat, YandexGPT, DeepSeek или Qwen.
Популярные музыкальные нейросети
Большинство этих нейросетей имеют бесплатную и платную версию, отличающиеся по функциям и по возможности использовать потом плоды совместного с ИИ творчества. Из этого списка разве что Rifussion полностью бесплатен без всяких лимитов. Во всех остальных сервисах есть ограничения на использование или скачивание готовых треков, но остаётся возможность покупки подписки и расширения набора функций и количества генераций.
При этом с оплатой подписок зарубежных сервисов остаётся известная проблема: они не принимают российские карты.
-
Suno AI — один из самых популярных сейчас сервисов, который позволяет создавать музыку с вокалом по текстовому описанию. Да, качество пока не «студийное», но для быстрых набросков или просто фана — самое то. Хороший вариант для начинающих, которые хотят воплотить в жизнь свои музыкальные идеи, но не умеют играть на инструментах и пугаются слова «сольфеджио». Первые 50 кредитов (хватает примерно на 10 композиций) — бесплатно, затем по подписке $10 в месяц.
-
Boomy — предельно простая в использовании нейросеть, которая позволяет генерировать треки, просто выбрав жанр и поджанр композиции. Затем к созданной музыкальной дорожке можно добавить голос — загрузив с устройства или спев под трек вживую прямо на сайте, поправив непрофессиональное исполнение автотюном. У готовой композиции можно менять аранжировку: добавить инструменты, звуковые эффекты, вокал, при желании микшировать. Boomy доступна для бесплатного пользования, но готовые композиции нельзя скачать или использовать в коммерческих целях. Хотите сохранить в свою библиотеку или выложить на стримингах – оплатите подписку в $10.
-
Loudly — способна сгенерировать трек по промпту, ограниченному в 250 знаков. Расширенные настройки включают 15 жанров, которые можно смешивать, можно выбрать продолжительность, музыкальные инструменты, скорость, темп и тональность. Лучше всего подходит для создания электронной музыки: эмбиент, лоу-фай, техно и т. п. В месяц можно создать 25 треков бесплатно и скачать один, но длительность композиций ограничена 30 секундами. За подписку в $8 можно увеличить число генераций до 300, а длительность — до 3,5 минуты, плюс откроется сертифицированная лицензия для размещения музыки.
-
Riffusion. Полностью бесплатный сервис на основе Stable Diffusion. Способен генерировать музыку в реальном времени по текстовому описанию — достаточно задать характеристики композиции, можно указать конкретные музыкальные инструменты, жанр. Если результат не устроит, можно попытаться доработать промпт или сгенерировать новые результаты по тому же запросу.
-
Udio AI. Может написать текст сама или по вашему тексту, однако предпочитает английский язык и для общения, и для генерации — на русском поёт с очень своеобразным акцентом. В расширенных настройках можно выбрать жанр, структуру песни, детализацию отдельных инструментов и партий, качество (влияет на скорость генерации) и др. Платный тариф стоит $10, бесплатно можно генерировать 10 коротких или 3 полноценных песни в день или всего 100 в месяц.
-
Soundful генерирует музыку по запросу, достаточно указать жанр и поджанр. Дополнительно можно задать темп, выбрать тональность композиции. Бесплатный тариф позволяет создать и скачать только 10 треков в месяц и слушать её исключительно в личных целях – чтобы снять ограничение, нужна подписка за $10, а для коммерческого использования и размещения на разных площадках нужно заплатить $50 за одну запись.
-
WavTool использует модель GPT‑4, так что он реально хорошо понимает текстовые запросы. Дополнительно есть набор настроек, чтобы вручную уточнить задание и отредактировать сгенерированный трек. Бесплатная версия допускает до 10 запросов в каждые 8 часов и позволяет использовать до шести дорожек инструментов. Бонус: готовые треки можно сохранять на компьютер без подписки. Pro-версия за $20 снимает лимиты на генерацию и количество дорожек.
-
Melobytes. Может создавать композиции не только по текстовому описанию, но даже на основе изображений и видео. Однако большинство настроек доступны только в профессиональной версии после регистрации аккаунта и оплаты подписки ($10 в месяц). В бесплатном режиме опций меньше, но сам процесс генерирования проще, правда ограничен пятью попытками в день.
-
BeatOven AI. Чтобы сгенерировать в ней музыку, нужно указать жанр, стиль, темп и настроение будущего трека. Остальное возьмёт на себя нейросеть. Генерации в бесплатной версии неограниченные, доступны расширенные настройки, однако без возможности загрузить трек на устройство. Есть несколько тарифов, которые отличаются по стоимости и продолжительности сгенерированной музыки, которую можно скачать в месяц.
-
Mubert. Специализируется на генерации фоновой музыки, которую можно использовать для коротких рилсов. Позволяет задать жанр, настроение, длину композиции, но петь и сочинять тексты для вас не будет. Бесплатно можно создавать до 25 треков в месяц, за $14 доступное количество увеличивается до 500, а за $39 её можно будет использовать в коммерческих целях.
-
*Soundraw. Ещё один простой генератор треков без вокала, где можно выбрать настроение, жанр, тему, темп и инструменты, задать продолжительность трека и отредактировать получившуюся мелодию. Сгенерировать по текстовому запросу нельзя – только выбрать предзаданные настройки. Даже на бесплатном тарифе количество генераций не ограничено, но их нельзя будет скачать и использовать. Подписка стоит $20 в месяц.
-
AIVA. Позволяет создавать музыку в выбранной тональности по заготовленным жанрам и изменять загруженный трек. Удобный инструмент для редактуры и аранжировки — прямо в сервисе можно удалить или добавить инструмент, растянуть или сжать партию, изменить темп и аккорды, добавить эффекты. Для регистрации доступна бесплатная версия, но авторские права останутся за нейросетью. Для коммерческого использования и выкладывания в интернет нужна подписка за 49 евро. Плюс: позволяет загрузить любимые песни в личный кабинет, чтобы ИИ ориентировался на них при создании новых композиций.
/imgs/2025/03/13/08/6756593/4a915fe4ea44dcdd2e22a1d9cae7350fd9001e11.png)
© Создано при помощи нейросети recraft.ai
Проблемы музыкальных нейросетей
Нейросетей для генерации музыки сейчас представлено довольно много, и умеют они уже значительно больше, чем пару лет назад, когда они только появлялись. С их помощью уже удаётся создавать вполне слушательные композиции, которые легко спутать с «человеческим» исполнением.
Однако проблем и подводных камней у этих нейросетей всё ещё много, указывают эксперты. Ярослав Селиверстов назвал ключевые из них:
- **Эмоции. **Передать всю глубину человеческих чувств, нюансы исполнения, «дыхание» вокалиста — это пока за гранью возможностей. Получается неплохо, но плоско и не цепляет за душу, как исполнение живого человека.
- Структура трека. Часто ИИ лепит какой-то винегрет из звуков без логики и развития. Получается что-то фрагментированное, без цельной композиции.
- Ресурсы. Чтобы обучить такую махину, нужны огромные базы данных и вычислительные мощности. А ещё нужно, чтобы это всё работало онлайн, да ещё и быстро, так что и сервера должны быть соответствующими. При этом пока процесс генерации музыки с учётом всех правок всё ещё довольно медленный и на то, чтобы добиться одной минуты желаемого звука, могут уйти часы.
- Тексты — просто боль: ИИ выдает какие-то шаблонные или вообще абсурдные строки. Юмор, метафоры, контекст — это всё мимо кассы.
- Мелодии — штамп на штампе. То выдаст что-то заезженное, то просто какую-то бессвязную кашу из нот. Уникальность — это не про него.
- Эксперименты — удел гениев. Всякие там Radiohead или Björk с их нестандартным мышлением — это пока не для ИИ. Нужен человеческий мозг, чтобы творить что-то реально новое.
- Авторское право и оригинальность. Нейронки учатся на существующих треках, и велик риск, что они просто «скомпилируют» что-то знакомое, а это уже попахивает плагиатом.
В целом вопрос оригинальности и плагиата — больной вопрос для всех нейросетей, что музыкальных, что текстовых и картиночных. Как ни крути, а учатся они на плодах человеческого разума, и создателям вечно приходится выбирать меньшее из зол: либо ограничивать себя только данными с очищенными авторскими правами и получить слабую и ограниченную нейросеть, либо рисковать и обучать на всех доступных данных, рискуя столкнуться с исками от ещё живых художников, композиторов и исполнителей.
/imgs/2025/03/13/10/6756741/91c559535f2b91e929085fab2fe25b296e529c4e.jpeg)
Основными проблемами генерации музыки с помощью ИИ остаются два вопроса — оригинальности и интеллектуальной собственности. Во-первых, сложно установить авторство такой композиции, так как ИИ использует уже созданные фрагменты текстов и мелодий для создания новых композиций. Во-вторых, ИИ может позаимствовать достаточно большой фрагмент мелодии или текста, что будет нарушать авторские права других музыкантов/музыканта.
Также можно отметить, что цифровые площадки, размещающие музыку, негативно относятся к композициям, созданным с помощью ИИ,/ по вышеописанными причинам. Такой подход — один из барьеров для распространения музыки, нарушающей авторские права.
/imgs/2025/03/13/08/6756592/64067c38ef2847931fd6b5f64b30946840054d7b.png)
© Создано при помощи нейросети recraft.ai
Сами музыканты, впрочем, относятся к конкуренции со стороны ИИ довольно скептически. Эксперты признают, что, несмотря на все успехи, в ближайшем будущем нейросети живых исполнителей всё-таки не заменят.
/imgs/2025/03/13/10/6756734/6d35c9cba9af4e2763d5ff634dad526cd323b768.png)
ИИ штампует троекратно переваренный метамодерновый продукт, который мало того, что звучит максимально синтетически, так ещё и не несет по итогу никакой смысловой нагрузки. Даже если попытаться её заложить с помощью ограничений и уточнения контекста в промте, можно получить разочарование.
Пока что креативное произведение, использующее отсылки и двусмысленный сатирический контекст, лучше человека не сделает никто. Машина хороша только на фабрике по производству клиповых тик-ток хитов, не наделённых никакими экзистенциальными смыслами. Музыка, созданная ИИ, часто лишена глубины, которая присуща человеческим композициям. Это делает её менее выразительной и менее способной вызывать сильные эмоции у слушателей.
/imgs/2025/03/13/09/6756642/4e2e3b2e20821bd0060976f8c546f27839d2ed4c.png)
© «Секрет фирмы»
При этом эксперты признают, что некоторые из этих нюансов рядовому слушателю часто незаметны и малозначимы.
/imgs/2025/03/13/10/6756736/98a8dc5b07920b9bca383f1f4742e7c95f95d862.jpg)
Вкус — дело тонкое. Как оценить, «хорошая» музыка или нет? У каждого свои понятия о прекрасном, так что объективных метрик тут нет.
Так или иначе, в чём нейросетям не откажешь — так это в том, что они делают сложные процессы проще и ближе простым людям. ИИ при всех их недостатках могут стать хорошим подспорьем для начинающих музыкантов и помочь нащупать собственный стиль за счёт бесконечного множества экспериментов. В конце концов, сколько бы ни было разговоров о компиляции и повторяемости, нот всего семь, — а дальше дело за нюансами.