Voice Activity Detection

VAD (англ. Voice Activity Detection), а также Silence Suppression (с англ. — «подавление тишины») — обнаружение голосовой активности во входном акустическом сигнале для отделения активной речи от фонового шума или тишины. Голос, интерпретированный как шум, может порождать «вырезки» из разговора (chipping). Фон, интерпретируемый как голос, приводит к снижению эффективности компрессии (например, в DTX).

Преимущества и использование

При оцифровке голоса, фрагменты сигнала, классифицируемые как активная речь, могут в дальнейшем кодироваться и сжиматься любым аудиокодеком (например, CELP) при использовании в ПО для различения в кодируемой речи человеческого голоса и фонового шума.

Использование механизма VAD (или Silence Suppression) позволяет экономить на передаче данных по каналу связи, так как перерыв в речи (определяется по уровню сигнала) не оцифровывается и не кодируется и таким образом «пустые» пакеты с тишиной не передаются по сети. Это очень важно для пакетной передачи (каковой является передача в сетях TCP/IP), так как кроме самих данных каждый протокол всех уровней модели OSI (транспортный, сетевой и т. д.) дописывает свою собственную служебную информацию в каждый пакет с данными. В результате размер пакета значительно вырастает. Таким образом исключение «пустых» пакетов с мелкими шумами — простой способ экономить трафик и, как следствие, увеличить пропускную способность канала. По этой причине механизм VAD довольно часто применяется наряду с различными кодеками эффективного сжатия в IP-телефонии.

Недостатки и метод их устранения

Проблема VAD в том, что в результате подавления тишины (на самом деле звука низкого уровня) слушающий не слышит вообще никаких опознавательных сигналов (дыхания, сопения и других мелких шумов, сопровождающих живую речь). Это создаёт некоторые проблемы, ведь в обычной разговорной речи слышно всё. Отсутствие привычного шума во время воспроизведения голоса вызывает неприятные ощущения и снижает уровень восприятия, понимания.

Для решения данной проблемы на стороне второго абонента (или слушателя) может применяться эмуляция сопроводительных звуков, получившая название генерации комфортного шума (CNG) (обратный процесс для VAD).

См. также

Ссылки

Content Disclaimer

Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.

  1. The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
  2. There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
  3. It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
  4. Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
  5. Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.