Digital Signal Processing and System Theory

Talk Simon Ohlendorf

 
Zwei Studenten und eine Tasse Kaffee   Entwicklung einer skalierbaren Sprachaktivitätsdetektion

Date: 19.09.2013, 17:00 h - 18:00 h
Room: Aquarium

Simon Ohlendorf
CAU, Kiel, Germany,

 
 
 

Details

 
 

Mit dem Aufkommen der digitalen Signalverarbeitung wurden in den vergangenen Jahrzehnten zahlreiche neue Anwendungen zur Sprachübertragung und Sprachverarbeitung entwickelt. Mit den schneller, kleiner und vor allem günstiger werdenden Prozessoren und den leistungsstärkeren Übertragungskanälen wie Breitbandinternet und GSM hielt die digitale Sprachverarbeitung auch Einzug in etliche Anwendungen im privaten Bereich, wie z.B. die mobile Telekommunikation, Freisprecheinrichtungen, automatische Spracherkennung, oder Videokonferenzsysteme.

Da Sprachsignale auch Pausen enthalten, lässt sich bei der Verarbeitung von Sprache Rechenaufwand und Übertragungskapazität einsparen, wenn diese Pausen erkannt werden. Dies geschieht anhand einer sogenannten Sprachaktivitätsdetektion (Voice Activity Detection, VAD). Je nach Umgebung ergeben sich verschiedene Problemstellungen an die VAD.

In dieser Arbeit soll der Einsatz einer VAD für ein Videokonferenzsystem in einer Büroumgebung untersucht werden. Es soll ein Verfahren entwickelt werden, welches die Sprachanteile eines Signals in der Büroumgebung zuverlässig detektiert. Hintergrundgeräusche wie Mausklicks, Tastaturgeräusche, Lüfterrauschen der Computer usw. sollen als Hintergrundgeräusch klassifiziert werden. Die VAD wird skalierbar sein, indem verschiedene Methoden für die Detektion angewendet werden, welche sich je nach gewünschtem Rechenaufwand (de-)aktivieren lassen können, je nachdem, ob Wert auf eine möglichst exakte Entscheidung oder auf Recheneffizienz gelegt wird.