Искусственный интеллект и сжатие звука без потери качества
Аудиокодек на базе искусственного интеллекта обещает 10-кратное сжатие по сравнению с MP3.
На прошлой неделе группа ученых объявила о новом алгоритме сжатия звука, разработанным с участием искусственного интеллекта. EnCodec сжимает аудио в 10 раз лучше, чем культовый MP3. Утверждается, что сжатие происходит без слышимых потерь качества звука. Этот метод может значительно улучшить качество звука речи при низкоскоростных соединениях, например, при телефонных звонках в районах с нестабильным обслуживанием.
Meta*, а именно в ней работают исследователи, описывает свой метод как систему из трех частей, обученную сжимать звук до желаемого целевого размера.
Использование дискриминаторов (классификаторов) оказывается ключом к созданию метода максимально возможного сжатия звука без потери ключевых элементов сигнала, которые делают его отличительным и узнаваемым.
«Ключом к сжатию с потерями является идентификация изменений, которые не будут восприняты людьми [человеческим слухом], поскольку идеальная реконструкция невозможна при низких скоростях передачи данных. Для этого мы используем дискриминаторы (классификаторы) для улучшения воспринимаемого качества сгенерированных образцов. Их задача состоит в том, чтобы различать реальные и реконструированные звуковые отрезки. Модель сжатия пытается добиться восстановления звуковых отрезков до изначального состояния».
Стоит отметить, что использование нейронной сети для сжатия и распаковки звука далеко не ново, особенно для сжатия разговорной речи. Однако, исследователи Meta* утверждают, что они являются первыми, кто применил технологию к стереозвуку с частотой дискретизации 48 кГц – под эту категорию попадают практически все музыкальные CD и большинство музыки в интернете.
На данный момент новая технология находится на стадии исследования, но есть надежда, что в будущем она позволит использовать сети с малой пропускной способностью для передачи высококачественного звука.
*признана экстремистской организацией и запрещена в РФ