Adobe Voco

Adobe Voco — программное обеспечение для редактирования и генерации прототипов аудио от Adobe, которое позволяет осуществлять редактирование и генерацию звука. Названный «Photoshop-for-voice»[1], Voco был впервые представлен на мероприятии Adobe MAX в ноябре 2016 года. Технология, показанная в Adobe MAX, была предварительным просмотром, который потенциально мог быть включен в Adobe Creative Cloud. По состоянию на 27 октября 2019 года Adobe еще не выпустила дополнительную информацию о потенциальной дате выпуска.

Технические детали

Как показала демонстрация, программное обеспечение берет приблизительно 20 минут речи желаемой цели, а затем генерирует похожий на звук голос даже с фонемами, которых не было в материале примера цели. Adobe заявила, что Voco снизит стоимость производства аудио.[1] С внедрением Adobe Voco и аналогичной технологии WaveNet, созданной DeepMind.[2]

Проблемы

Были высказаны этические соображения и проблемы безопасности в связи с возможностью изменить аудиозапись, включив в нее слова и фразы, которые первоначальный говорящий никогда не произносил, и потенциальным риском для биометрических данных голосовых отпечатков.[1]

Также существуют опасения, что его можно использовать в сочетании с:

  • Синтезом человеческого изображения, который с начала 2000-х годов достиг такого уровня подобия, что проводить различие между человеком, записанным с помощью камеры, и имитацией человека очень сложно.[3]
  • Видео манипулирование выражениями лица человека практически в реальном времени с использованием существующего 2D-видео RGB.[4]

Альтернативы

Отсутствие публичного прогресса в Adobe открыло возможности для других компаний создавать альтернативные продукты VOCO, такие как LyreBird.[5]

WaveNet - это аналогичный, но открытый исследовательский проект для лондонской фирмы по искусственному интеллекту DeepMind, разработанный независимо в то же время, что и Adobe Voco.

Ссылки

  1. 1 2 3 Adobe Voco 'Photoshop-for-voice' causes concern. BBC.com. BBC (7 ноября 2016). Дата обращения: 5 июля 2016. Архивировано 7 ноября 2016 года.
  2. WaveNet: A Generative Model for Raw Audio. Deepmind.com (8 сентября 2016). Дата обращения: 24 мая 2017. Архивировано 27 мая 2017 года.
  3. Rodgers, Julian. Adobe Voco - Should We Be Afraid? Production Expert. Pro Tools. Дата обращения: 14 декабря 2018. Архивировано 16 декабря 2019 года.
  4. Thies, Justus. Face2Face: Real-time Face Capture and Reenactment of RGB Videos. Proc. Computer Vision and Pattern Recognition (CVPR), IEEE (2016). Дата обращения: 18 июня 2016. Архивировано 12 июня 2016 года.
  5. Lyrebird - Create a digital copy of voice (англ.). lyrebird.ai. Дата обращения: 27 марта 2018. Архивировано 24 апреля 2018 года.

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.