Digital Signal Processing and System Theory

Talk Mirco Scheil

Development of an Audio Upmix Scheme for Spatial Playback of Stereo Sources

Date: 22.01.2013, 11:00 h - 11:30 h
Room: F-006

Mirco Scheil
CAU, Kiel, Germany,


While 5.1 surround multichannel audio systems are being adopted widely by consumers, most audio content is still available in the two-channel stereo format. For audio systems enhancing the sound experience beyond stereo, it is thus crucial that stereo audio content can be played back, desirably with an improved experience compared to the legacy systems.

The benefit by using more front loudspeakers will be an increased width of the virtual sound stage and an extended sweet-spot region. Lateral independent sound components can be played back seperately over loudspeakers on the sides of a listener to increase listener envelopment.


 In this thesis a real-time upmix-algorithm will be developed within the Kiel Real-Time Audio Tool kit (KiRAT) using the programming language C. The aim will be to play back stereo signals over more than two loudspeakers for an improved listener experience. After using analysis filterbanks a spatial decomposition of the two-channel audio signal will be performed with correlation- and coherence-based analyses. Given the spatial decomposition of the stereo signal, the single loudspeaker signals can be generated.

Talk Bastian Sauert

Near-End Listening Enhancement: Theory and Application

Date: 20.01.2013, 17:15 h - 18:15 h
Room: Aquarium

Dr.-Ing. Bastian Sauert
RWTH, Aachen, Germany,


Mobile communication is often conducted in the presence of acoustical background noise. The near-end listener also experiences an increased listening effort and a possibly reduced speech intelligibility since he is located in the noisy environment and perceives a mixture of the clean far-end (downlink) speech and the acoustical background noise.

The noisy environment at the near-end side is usually not easily influenceable, like car noise at a busy street or speech babble noise in a cafeteria. In handset mode, one ear of the near-end listener is “covered” to some extend by the mobile phone. Nevertheless, the noise signal is still perceived by both ears without any possibility to intercept. Therefore, the manipulation of the far-end signal is the only way to effectively improve speech intelligibility for the near-end listener by digital signal processing, which holds in particular if the processing adapts to the sound characteristics of the ambient noise. This approach we call near-end listening enhancement (NELE).

A number of speech modification algorithms have been presented in literature to tackle the problem of NELE. To date, most of the proposed algorithms are noise independent, i.e., the same processing with the same setup is performed regardless of the SNR and other noise characteristics. This, however, also results in a modified speech signal even in quiet environments. These noise independent methods include boosting of the consonant-vowel-ratio, formant enhancement, manipulation of duration and prosody, and more advanced manipulations of the temporal structure. Recently, some techniques have been studied which utilize prior knowledge or estimates of the noise context. These approaches include formant enhancement, modification of the local SNR, spectral shaping and dynamic range compression, and optimization with respect to an objective criterion.

We derived a NELE algorithm which maximizes the Speech Intelligibility Index (SII) and thus speech intelligibility by frequency selective increase of the speech signal power. This represents an upper performance bound, which can only be reached with high-end loudspeakers. In mobile phones, however, the restrictions of the commonly used micro-loudspeakers need to be considered. Especially in hands-free operation, the maximum thermal load of the micro-loudspeaker constitutes a major limitation. The overall audio power is restricted to a maximum power, which refers to a constrained optimization of the SII.

Besides mobile telephony in handset as well as hands-free mode, near-end listening enhancement can further be applied in headphones, hands-free conference terminars, car multimedia systems, public address systems and digital hearing aids.

Talk Necati Ugras Babacan

Necati Ugras Babacan

Real-Time Implementation of a Feedback-Delay Network in Frequency Domain

Date: 19.03.2014, 10:00 h - 11:00 h
Room: Aquarium

Necati Uğraş Babacan
CAU Kiel, Germany


This thesis introduces an approach of real-time frequency-dependent control of reverberation while keeping the computational complexity and latency at acceptable levels. It deals with the real-time signal processing of an active articial reverberation system by means of frequency-domain implementation of feedback-delay networks.

Talk Patrick A. Naylor

Prof. Dr. Patrick A. Naylor

Signal Processing Techniques for Acoustic Inference and Dereverberation

Date: 14.04.2014, 17:15 h - 18:15 h
Room: Aquarium

Prof. Dr. Patrick A. Naylor
Communications and Signal Processing Group, Imperial College London, UK


The impact of acoustic propagation on speech signals observed at various points in space by microphones can be at the same time both degrading to the signals and useful for spatial awareness. The degradation is in the form of reverberation. This can have a negative effect on speech quality and can reduce the accuracy of automatic speech recognition. On the other hand, the spatial information observed along with the signal can be used to give spatial awareness of the source and microphone locations relative to the acoustic environment.

I find these contradictory effects intriguing. In this talk I shall discuss a single channel problem formulation for room geometry inference from the spatial information intrinsic in a room impulse response. Then I shall present some multichannel signal processing approaches to address the problem of reverberation in speech. In general, speech dereverberation can be achieved by first performing multichannel blind estimation of the acoustic propagation channels, and secondly applying a multichannel equalizer corresponding to the inverse of the acoustic system. This approach to dereverberation will be reviewed and some of the practical difficulties highlighted. Current and new approaches for the approximate inversion of the acoustic channel will be described.


Patrick Naylor received the BEng degree in Electronic and Electrical Engineering from the University of Sheffield, U.K., in 1986 and the PhD degree from Imperial College London, U.K., in 1990. Since 1990 he has been a member of academic staff in the Department of Electrical and Electronic Engineering at Imperial College London.

His research interests are in the areas of speech, audio and acoustic signal processing. He has worked in audio particular on adaptive signal processing and speech processing and has recently produced the first research textbook on dereverberation. Important topics in his work are microphone array signal processing, blind multichannel acoustic system identification and equalization, single and multi-channel speech enhancement and speech production modelling with particular focus on the analysis of the voice source signal. He is a director of the UK Centre for Law Enforcement Audio Research, a government funded centre tasked to undertake advanced research and to support the law enforcement agencies. In addition to his academic research, he enjoys several fruitful links with industry in the UK, USA.

Talk Gabriel Curio

Gabriel Curio

"Brain-Computer Interfaces" – medizinische Perspektiven und ethische Implikationen einer neuen Mensch-Maschine-Schnittstelle

Date: 30.06.2014, 17:15 h - 18:15 h
Room: Aquarium

Prof. Dr. Gabriel Curio
Neurophysics Group, Department of Neurology and Clinical Neurophysiology, Charité, University Medicine Berlin, Germany


Maschinen allein durch die Kraft der Gedanken steuern – was wie Science Fiction klingt, umreißt ein weit gespanntes, aktuelles Forschungsfeld. Brain-Computer Interfaces (BCIs) können schwerstgelähmten Patienten neue Handlungsmöglichkeiten eröffnen. Das Berliner BCI ( integriert dafür das zeitlich hochauflösende, nicht-invasiv messbare und mobil einsetzbare Elektroenzephalogramm (EEG) mit Computerprogrammen des Maschinellen Lernens: Mit BCIs können z.B. Bildschirm-Cursor und Prothesen gesteuert, ‚mentale Schreibmaschinen’ bedient sowie Wachheit und Konzentration an sicherheitsrelevanten industriellen Arbeitsplätzen erfasst werden. Aktuelle technologische Innovationen betreffen ‚berührungslose’ sowie im Alltagseinsatz ‚unsichtbare’ EEG-Elektroden. BCIs werden medizinisch und industriell von Bedeutung sein, werden jedoch auch hinsichtlich militärischer Einsatzbereiche erforscht. Deshalb sollten in der öffentlichen Diskussion sowohl methodeninhärente Grenzen wie auch ethische Implikationen dieser Technologie Beachtung finden.


Gabriel Curio hat an der FU Berlin Medizin studiert. Forschungsaufenthalte führten nach Rotterdam, Espoo und London. Als Facharzt für Neurologie und Psychiatrie und Geschäftsführender Oberarzt der Neurologischen Klinik der Charité leitet er seit 1991 die AG Neurophysik. Er ist Gründungsmitglied des Berlin Neuroimaging Center, des Bernstein Center for Computational Neuroscience, des Bernstein Focus Neurotechnology, sowie der Excellence School of Mind and Brain.

Talk Sami Alkubti Almasri


Real-Time Implementation of a Brain-Computer Interface

Date: 02.05.2014, 11:00 h - 12:00 h
Room: Aquarium

Sami Alkubti Almasri
CAU Kiel, Germany


The Brain Computer Interface (BCI) is a system that realizes a connection between the human brain and a controllable hardware, so it translates the brain activities to control commands, in order to control a TV, a videogame, a computer or in principle any controllable device. The BCI takes the mental activities recorded and measured by any means, for example electroencephalography (EEG), as inputs and converts them to meaningful signals for controlling the target device. Such a system is of an extreme importance for patients who suffer from paralysis, hemiplegia, neuromuscular diseases or any disability so that they are not able to communicate properly with the outer world any more, or that they lost completely or partly their ability to move and control the muscles voluntarily. With the help of BCI system these patients are able again to control and administrate their electrical devices without the external help they usually need from their keeper or attendant, and are capable of conveying their wishes and thoughts to their surroundings. In this talk we present a BCI system we designed for controlling a TV set remotely using the Emotiv EEG neuroheadset, for recording the EEG signals, and the real-time framework (KiRAT) which performs the demanded signal processing and outputs the corresponding control commands to the TV set.

Talk Hannes Hinkelmann

saaa Real-Time Auralization of electrical brain acitvity

Date: 15.05.2014, 13:00 h - 13:30 h
Room: Aquarium

Hannes Hinkelmann
CAU Kiel, Germany


The main purpose of this project is to generate acoustic signals by using EEG Data (Electroencephalography). We distinguish between the two submodules Direct and Indirect Auralization. The Direct Auralization takes the EEG data of several input channels to modulate the frequency of an adjustable carrier signal (Frequency Modulation). Changing the modulation parameters influences the impact of the EEG input on the frequency range of the audio output. By using several speakers and putting the modulated signals of different channels to spatially distributed loudspeakers we get a solid impression about the electrical activity of different parts of the brain. The Indirect Auralization uses control signals which are extracted by a Brain Computer Interface (BCI) from the EEG data to play music. Eye blinking for example creates a recognizable and detectable pattern which can be used. The main idea is to create a user friendly software which allows physically disabled people to control music. We have a few sets of several overlayable and dubbed wave tracks for different music styles. The user dictates the software the construction of the beat for each style by using eye blinks. He can select successively which tracks he wants to activate or deactivate.

Talk Bastian Gröger

saaa Implementierung und Evaluation eines Messsystems zur Bestimmung der Sprachverständlichkeit von Maskenkommunikationssystemen

Date: 02.05.2014, 13:00 h - 13:30 h
Room: Aquarium

Bastian Gröger
CAU Kiel, Germany

Talk Momme Grupp

Entwicklung unt Visualisierung eines Echtzeit-Trackingsystems unter Berücksichtigung des Doppler-Effekts

Date: 15.05.2014, 13:00 h - 13:30 h
Room: Aquarium

Momme Grupp
CAU Kiel, Germany


Das Tracking dient der Verfolgung bewegter Objekte. Dabei werden Spurfolgen dieser Objekte erstellt. Typische Anwendungsfälle sind die Luftraumüberwachung mittels Radar oder das Tracking von Objekten unter Wasser. Beim Unterwasser-Tracking können durch das Empfangen von Schallwellen Positionsdaten von Objekten erstellt werden.

Mit Hilfe dieser Daten ist es dem sogenannten Kalman-Filter-Algorithmus möglich eine Spurfolge zu errechnen. Neben den Positionsdaten ist es möglich Informationen über die Geschwindigkeit eines Objektes zu messen.

Gerade die Verbindung eines Echtzeit-Trackingsystems, mit einer Echtzeit-Visualisierung kann wichtige Erkenntnisse über das getrackte Objekt aufzeigen. Insbe sondere kann die Bewegungsrichtung sowie ein Richtungswechsel erkannt werden. Es ist zudem möglich Rückschlüsse über die Geschwindigkeit des getrackten Objektes zu ziehen.

Talk Harpreet Singh


Development of an autonomous real-time communication with a variable number of speakers

Date: 30.04.2014, 13:00 h - 14:00 h
Room: Aquarium

Harpreet Singh
CAU Kiel, Germany


Es ist allgemein zu beobachten, dass sich die Kommunikation in einem fahrenden Fahrzeug mit zunehmender Geschwindigkeit immer schwieriger gestaltet. Besonders zwischen den vorderen und den hinteren Fahrgästen. Mit Hilfe von In-Car-Communication (ICC) Systemen wird versucht dieses Problem zu lösen, indem die Sprachsignale des sprechenden Passagiers aufgenommen und über die lokalen Lautsprecher des Autos wiedergegeben werden [1]. Um diese ICC Systeme testen zu können werden Personen benötigt, die bei jedem Testdurchlauf eine Konversation führen. Dies kann zum einen kostenintensiv sein und zum Anderen sind die Ergebnisse schwer vergleichbar, da die menschliche Konversation nicht exakt reproduzierbar ist.

In der vorliegenden Bachelorarbeit geht es darum, eine künstliche, reproduzierbare Kommunikation zu erzeugen, die die Verbesserungen der ICC Systeme genauer beurteilen lässt und jederzeit zur Verfügung steht. Die besondere Herausforderung dabei ist, die Kommunikation so menschlich wie möglich klingen zu lassen. Hierbei spielt der Lombard-Effekt eine zentrale Rolle. Dieser beschreibt das Verhalten der menschlichen Sprache unter dem Einfluss von verschiedenen Umweltgeräuschen. Es ist oft der Fall, dass Menschen in lauten Umgebungen automatisch anfangen lauter und eventuell langsamer zu sprechen [2]. Mit diesen und einigen weiteren Veränderungen der Spracheigenschaften befasst sich der Lombard-Effekt. Um diesen Effekt gut nachbilden zu können werden die Dialoge unter verschiedenen Geräuschkulissen aufgenommen.

Um die Umgebungsgeräusche wahrnehmen zu können und eine entsprechende Sprachausgabe zu erzeugen wird eine passende Hard- und Software benötigt. Die wichtigste Hardware dabei ist der Kunstkopf von HeadAcoustic, der das menschliche Gehör und Sprachsystem sehr gut nachbildet und daher auch in der Automobilindustrie zum Testen von Audioanwendungen verwendet wird. Die Software, die hierfür genutzt wird, trägt den Namen: Kiel Real-Time Audio Toolkit (Ki- RAT). Diese wurde von dem Lehrstuhl Digitale Signalverarbeitung und Systemtheorie (DSS) der Christian-Albrechts-Universität zu Kiel (CAU) entwickelt und enthält Module zur Verarbeitung von Signalen aus dem Medizin-, Audio- und Sonarbereich. Die durch die Ohren der HeadAcoustic Kunstköpfe aufgenommenen Signale werden an das Audiomodul des KiRATs weitergeleitet, dort in Echtzeit verarbeitet und anschließend ein zum aufgenommenen Umgebungsgeräusch passendes Sprachsignal ausgegeben. Eine Besonderheit der Wiedergabe ist, dass der Dialog nicht statisch ist, d.h. es erfolgt nicht bei jeder Wiedergabe die gleiche Antwort auf dieselbe Frage, sondern der Dialog entsteht zufällig mit einstellbaren Wahrscheinlichkeiten für die einzelnen Aussagen. Hierzu werden die einzelnen Aussagen in Zustände aufgeteilt. Jeder Zustand enthält mehrere lombardische Ausprägungen der Aussage, von denen eine, abhängig von dem Hintergrundgeräusch zur Wiedergabe ausgewählt wird.


Talk Christin Baasch

Development of a Test Platform for Hands-free Systems

Date: 19.06.2014, 13:30 h - 14:30 h
Room: Aquarium

Christin Baasch
CAU Kiel, Germany



Talk Philipp Roser

Zwei Studenten und eine Tasse Kaffee   Lokalisierung mehrerer Sprecher in stark geräuschbehafteter Umgebung

Date: 05.06.2014, 13:30 h - 14:30 h
Room: Aquarium

Philipp Roser
CAU Kiel, Germany



In dieser Diplomarbeit wurde mithilfe von MATLAB ein Algorithmus zur Lokalisierung von Fahrer und Beifahrer in einem Fahrzeug entwickelt und schließlich in KiRAT (Kiel-Realtime- Audio-Toolkit) implementiert. Für die Lokalisierung kamen zwei Mikrofon-Arrays zum Einsatz, die sich auf jeweiliger Höhe der Sitzpositionen der Sprecher befanden. Durch einen modifizierten Vorprozess, der primär für die robuste Erfassung der relativen Signalverzögerungen ausschlag- gebend ist, ließ sich dieser Mehrsprechefall in zwei Einsprecherfälle separieren. Dies begünstigte den Einsatz eines neuartigen Echtzeitalgorithmus, welcher die Position iterativ aus den erfassten Signalverzögerungen bestimmt. Das Prinzip dieses Algorithmus basiert auf der Schnittpunkter- mittlung von errechneten Hyperbeln, welche die Lösungsschar der möglichen Quellpositionen aus "Sicht" von jeweils einem betrachteten Mikrofonpaares darstellt. Durch diesen Algorithmus ließ sich eine Implementierung mit hohem Echtzeitpotential umsetzen.  

Talk Lars Lindemann


Real-time Detection of Event-Related Potentials by Means of EEG

Date: 24.07.2014, 13:00 h - 13:30 h
Room: Aquarium

Lars Lindemann
CAU Kiel, Germany


Current researches at the Christian-Albrechts-University of Kiel have been focussed on artifact based feature extraction. In connection with a Brain-Computer-Interface, these features have been used. An enhancement of this Brain-Computer-Interface is not part of this work. First of all, a 24 channel electroencephalogram of the company Demetec has been connected with the Kiel Real-time Audio Toolkit, which is used for real-time processing. This first step includes a samplerate conversion and implementation of digital filters for noise reduction. In favour of thought extraction, there have been several MATLAB investigations of Body Move- ments and Visual-Evoked Potentials. During this work, the awareness of signal averaging, signal- to-noise level and artifacts has been awaked. The need for low noise disturbance and training before real-time usage is a result of this analysis. Based on this discoveries, a visual-evoked P300 feature classificator has been implemented. In a foregoing training, a training vector is calculated by applying Fisher’s Linear Discriminant Analysis. In real-time processing, the resulting training vector is linear combined with a feature vector for the detection of P300 waves, which are released due to a visual stimuli. The implemented system has an accuracy of 77.8 % with a detection time of about 40 seconds per feature.

Talk Timon Borchert


Klassifikationsbasierte Echtzeitauralisierung von EEG-Signalen

Date: 03.09.2014, 11:00 h - 11:30 h
Room: Aquarium

Timon Borchert
CAU Kiel, Germany


Dieser Vortrag befasst sich mit dem Ziel ein Programm zur Detektion sogenannter Alpha- Aktiviät des Gehirns und darauf folgende Veränderung der Auralisierung zu entwickeln. Die Detektion soll mit Hilfe des Gauß’schen Mischmodels erfolgen. Hierfür müssen Merkmale aus den aufgenommenen EEG-Daten extrahiert werden, welche die Alpha-Aktivität eindeutig und zuverlässig beschreiben.

Alpha-Aktiviät ist eine messbare Gehirnaktivität, die hauptsächlich bei geschlossenen Augen, oder auch Müdigkeit bzw. Schläfrigkeit mit offenen Augen auftreten kann [1]. Die elektrische Aktivität des Gehirns wird mit Hilfe der Elektroenzephalografie direkt an der Kopfhaut des Menschen erfasst.

Das Programm könnte zur frühzeitigen Erkennung von Müdigkeit verwendet werden. Ein typischer Anwendungsbereich wäre bei Personen, die sich im Straßen-, Luft-, oder Schienenver- kehr befinden. Internationale Statistiken belegen, dass jeder vierte tödliche PKW-Verkehrsunfall auf deutschen Straßen durch eingeschlafene Fahrer verursacht wird [2]. Bei der Erkennung von Alpha-Aktivität und verbundener Müdigkeit am Steuer kann eine Audioausgabe gestartet werden, welche auf das Beenden der Fahrt aufmerksam machen soll. Eine weitere mögliche Verwendung könnte in der Erforschung von Krankheiten in Bezug auf Probleme des Einschlafens oder der inneren Unruhe von Patienten liegen.

Talk Ulrich Nickel

Portrait Ulrich Nickel

Adaptive Diagrammformung für Array-Antennen: Grundlegende Prinzipien und Probleme bei der Anwendung

Date: 27.10.2014, 17:15 h - 18:15 h
Room: Aquarium

Dr. Ulrich Nickel
Sensordaten- und Informationsfusion (SDF), Fraunhofer Institut für Kommunikation, Information und Ergonomie, (FKIE), Wachtberg


Es wird ein Überblick über die Methoden der adaptiven Diagrammformung gegeben (Lösungen der verschiedenen Optimierungsaufgaben, deterministische vs. adaptive Diagrammformung, Zusammenhang mit Superauflösung, Schmalband- und Breitbandproblem) und ein Überblick über die Probleme bei der Schätzung der adaptive Gewichte gegeben (Auswahl und Umfang der Trainingsdaten, Einfluss der Array-Konfiguration, Reduktion der Freiheitsgrade, Untergruppenbildung, Auswirkung von Array-Fehlern und Methoden der Robustifizierung). Es wird weiterhin ein Ausblick gegeben, in welcher Form für einen effizienten Einsatz der adaptiven Diagrammformung alle nachfolgenden Verarbeitungsschritte (Detektion, Zielparameterschätzung, Tracking) auch angepasst werden müssen (adaptive detection, adaptive monopulse, adaptive tracking).

Die Darstellung wird soweit möglich allgemein gehalten. Die Anwendungsbeispiele werden allerdings entsprechend dem Erfahrungshintergrund des Autors aus dem Radarbereich gegeben.


Ulrich Nickel studierte angewandte Mathematik an der Universität Köln (Diplom 1975) und promovierte 1983 zum Dr. rer.nat. an der RWTH Aachen (Fakultät für Elektrotechnik). Von 1975 an war er wissenschaftlicher Mitarbeiter in der Abteilung Array-Basierte Radarbildgebung im Forschungsinstitut für Hochfrequenzphysik und Radartechnik (FHR) in der Forschungsgesellschaft für Angewandte Naturwissenschaften (FGAN) in Wachtberg. Seit 2007 ist er in der Abteilung Sensordaten- und Informationsfusion (SDF) des Fraunhofer Instituts für Kommunikation, Informationsverarbeitung und Ergonomie (FKIE) in Wachtberg.

Seine Arbeiten befassen sich mit allen Aspekten der Array-Sensorik und Array-Signalverarbeitung, insbesondere Detektion und Parameterschätzung mit adaptiven Antennen und Superauflösung für Radaranwendungen. U. Nickel war als Gastwissenschaftler 1987 im Defence Research and Development Canada (DRDC) in Ottawa und an der University of Connecticut, CT, USA, 2009. Er erhielt den VDE-ITG Literaturpreis 1989 und einen Best Paper Award auf der CIE Konferenz RADAR 2006 (Shanghai). Er ist beitragender Autor zu den Büchern ’Radar Array Processing’ (eds. S. Haykin et al, Springer-Verlag, 1993) und ’Applications of Space-Time Adaptive Processing’ (ed. R. Klemm, IEE Publishers, 2004). Von 1996 bis 2010 war er Mitglied des Editorial Board der AEÜ (International Journal of Electronics and Communications) und von 2010 bis 2013 Associate Editor der IEEE Transactions on Aerospace and Electronic Systems.

Talk Allan Karim


Untersuchung von Parameterjitter in einem Unterwassersimulationsframework

Date: 02.10.2014, 13:30 h - 14:00 h
Room: Bibliothek

Allan Karim
CAU Kiel, Germany


Dieser Vortrag befasst sich mit der statistischen Analyse eines Unterwassersimulationsframeworks für die Aktiv-Sonar Simulation.
Zur Weiterentwicklung von Aktiv-Sonar Anlagen wird häufig auf Simulationen zurückgegriffen. Diese basieren auf Modellierungen verschiedener physikalischer Vorgänge unter Wasser und müssen stets geeignet parametrisiert werden um eine hohe Aussagekraft zu haben. Die Unsicherheiten in den Parametern (sog. Parameterjitter) können dabei durch Rauschprozesse dargestellt werden. Um den Einfluss des Parameterjitters zu verstehen müssen dessen Einflüsse auf die Ergebnisse der Simulation und die Ausmaße identifiziert werden. Dazu können statistische Werkzeuge wie Korrelationskoeffizienten oder Sensitivitätsindex genutzt werden. Diese ermitteln Wechselwirkungen zwischen Eingangsparametern und Ausgangswerten der Simulation und bewerten diese.

Talk Lars Prigge


Untersuchung qualitätsrelevanter Fahrzeugeigenschaften für Innenraumkommunikationssysteme

Date: 08.09.2014, 11:00 h - 11:30 h
Room: Aquarium

Lars Prigge
CAU Kiel, Germany


The communication inside a vehicle can be impaired due to a high background noise occurring at higher velocities. An In-Car communication system (ICC system) is capable of improving this impaired situation. Such a system records the speech signal of the talking passenger and plays back the enhanced speech signal via the loudspeakers inside the vehicle. First vehicles, e.g. V class of Mercedes Benz, can be ordered with an ICC system.
In order to evaluate such systems two different approaches, a subjective and an objective one, may be considered. The objective evaluation by means of instrumental methods is currently being investigated and first ideas have been published. The evaluation results not only offer the possibility to determine the quality of one system, but also to compare different systems. These different systems are working in different environments respectively in different vehicles, which can vary in the complexity for an ICC system. For example the background noise occurring at high speeds or the distance between the loudspeakers and microphones used can vary. These different properties of a vehicle, therefore, do affect the quality of an ICC system.

In this work, the impact of some vehicle characteristics on the quality of an ICC system should be investigated. Therefore, some main properties need to be selected since not all are affecting the quality of an ICC system. Subsequently, methods and algorithms have to be identified and implemented in order to measure the selected properties. After collecting all information of the different vehicles, the importance for the ICC system evaluation should be investigated.

Talk Mevlüt Yalaz


Untersuchung einer Verstärkungsteuerung zur Verbesserung der Sprachverständlichkeit

Date: 01.10.2014, 13:00 h - 13:30 h
Room: Aquarium

Mevlüt Yalaz
CAU Kiel, Germany


Dieser Vortrag befasst sich mit der Anpassung und Umsetzung einer Verstärkungssteuerung für die Wiedergabe im ICC-System oder in der Freisprechtelefonie im Fahrzeug. Diese Verstärkungssteuerung wird als Alternative zur bisherigen geräuschbasierten Steuerung vorgestellt und basiert auf einem für die Mobiltelefonie entwickelten Wiedergaberegelung mit dem Ziel die Sprachverständlichkeit am Ohr des Zuhörers zu optimieren. Dabei wird als Maß der Sprachverständlichkeitsindex (Speech Intelligibility Index, SII) verwendet, mit dem Ziel das Signal vor der Wiedergabe frequenselektiv derart zu verstärken, dass dieser maximiert wird.

Bestandteil dieser Arbeit war es den für den Mobilfunk entwickelten Algorithmus an die Gegebenheiten im Fahrzeuginnenraum anzupassen und anschließend die Performanz im Vergleich zur geräuschbasierten Verstärkungssteuerung zu evaluieren. Hauptbestandteil der Anpassung war hierbei, Distanzen zwischen Lautsprecher und Zuhörer bzw. zwischen Sprecher und Mikrofon zu berücksichtigen und auf wechselnde Bedingungen zu reagieren.

Talk Jan Wieland

Jan Wieland
Entwicklung und Implementierung eines drahtlosen Unterwassertelefoniesystems

Date: 27.11.2014, 13:30 h - 14:30 h
Room: Aquarium

Jan Wielnd
CAU Kiel, Germany


Gegenwärtig ist der Unterwasserbereich auch für zivile Anwendungen ein interessanter Forschungsbereich, denn im heutigen Zeitalter spielt die Kommunikation und die Übertragung von Daten einegroße Rolle. Beispiele hierfür sind:

   • Unterwassertelefonie zwischen Tauchern
   • Fernsteuerung von unbemannten Unterwasserfahrzeugen zur Erkundung unbekannter     
     Tiefen und zur Reparatur an z.B. Ölplattformen
   • Drahtlose Sensornetzwerke zur Überwachung der Meeresumwelt
   • Datenübertragung von im Meer fest verankerten Messgeräten zu Empfängern an der

Wasseroberfläche für die Klimaforschung oder als Tsunami-Frühwarnsystem. Auch in Zukunft werden die Forschungen in der Unterwasserwelt voraussichtlich zunehmen, was steigende Anforderungen an die Leistungsfähigkeit und die verfügbare Übertragungsgeschwindigkeit mit sich bringt, um die stetig wachsenden Datenmengen über immer größere Entfernungen senden zu können.

Talk Tinu Sebastian

Real-Time Implementation of Automatic Speech Recognition

Date: 04.12.2014, 13:00 h
Room: Aquarium

Tinu Sebastian
CAU, Kiel, Germany,


Automatic speech recognition is the technology that allows computers to interpret human speech or convert speech to text. It is an interesting field of research for many years and has already been used for a number of applications. In this talk, various techniques to improve the recognition rate of a speech recognition engine available as part of Kiel Real-time Audio Toolkit (KiRAT) is discussed. These include triphone-based GMM, modification of frame size, delta features, variable-frame-rate training, multiple Gaussians per phone, blind training, linear discriminant analysis, RASTA filter and gender based speech recognition. The eigenvalue decomposition problem which is used in linear discriminant analysis is also discussed. The eigenvalues and eigenvectors are found by reducing the the matrix to tridiagonal matrix using Householder reduction and then applying QL algorithm.