Het voorspellen van spraakverstaanbaarheid bij aanwezigheid van een stoorspreker

Koenraad S Rhebergen, Niek J. Versfeld & Wouter A. Dreschler AMC, KNO / Klinische & Experimentele Audiologie, 21 september 2005
 

Iedereen weet uit ervaring dat het lastig is om iemand te verstaan in situaties met omgevingsgeluiden. Wanneer de omgevingsgeluiden afkomstig zijn van apparaten of machines, zoals in de situatie waarbij een gesprek wordt gevoerd in een auto, wordt de verstaanbaarheid van de spreker eigenlijk alleen bepaald door de mate waarin de omgevingsgeluiden de spraak fysiek overstemmen of maskeren. Vervelender wordt het wanneer de spreker in de buurt staat van een tweede spreker, de stoorspreker. De luisteraar heeft dan relatief meer last van de stoorspreker, omdat naast fysieke maskering de aandacht van de luisteraar ook nog getrokken wordt naar inhoud of informatie afkomstig van deze stoorspreker. Deze tweede vorm van maskeren wordt dan ook met een Engelse term “informational masking” genoemd. Het moge duidelijk zijn dat informational masking grotendeels verdwijnt wanneer de stoorspreker bijvoorbeeld Zweeds in plaats van Nederlands spreekt.

Aanpassing SII model

In de audiologie worden veel spraakverstaantests gedaan, bijvoorbeeld om te bepalen hoe goed iemand kan verstaan met hoortoestellen. Om enerzijds dicht bij de realiteit te blijven en anderzijds informational masking te elimineren zijn veel experimenten gedaan waarbij de stoorspraak in de tijd is omgedraaid. De fysieke (spectrale) eigenschappen van de stoorspraak blijven zo behouden, maar de stoorspraak zelf wordt onverstaanbaar. De traditionele manier om te meten hoe goed een spreker in omgevingsgeluiden is te verstaan, is door steeds de verstaanbaarheid van de spreker te meten, waarbij de omgevingsgeluiden in meer of mindere mate worden toegevoegd. De signaal-ruisverhouding (de verhouding tussen het niveau van de spreker en dat van de omgevingsgeluiden, uitgedrukt in dB) waarbij de helft van de spraak nog correct kan worden verstaan wordt de Speech-Reception Threshold (SRT) genoemd. In stationaire ruis is bekend dat de signaal-ruisverhouding of SRT ligt op –5 dB, dus dat de spraak ca. 5 dB zachter kan zijn dan de omgevingsgeluiden. In fluctuerende ruis kan de SRT bij het zelfde gemiddelde geluidniveau variëren van -6 tot -30 dB. Deze uiteenlopende SRT waarden worden bepaald door de “fysieke” temporele structuur van het stoorsignaal. Het ene stoorgeluid geeft de luisteraar als het ware meer ruimte om in de “gaten van de ruis” te luisteren dan het andere stoorgeluid. Hoe dieper en of langer men in de gaten van de ruis kan luisteren, hoe lager (lager is beter) de gemeten SRT is. Uit diverse SRT metingen blijkt dat in de regel een normaal horende in fluctuerend omgevingsgeluid veel makkelijker een spreker kan verstaan dan in een continu omgevingsgeluid met het zelfde geluidsniveau. Om de spraakverstaanbaarheid in divers omgevingslawaai in diverse ruimtes te bepalen wordt de SRT niet gemeten omdat het een zeer tijdsrovende methode is, die daarnaast ook nog eens alleen betrouwbaar is te meten in een klinisch of experimenteel goed gecontroleerd laboratorium. Een goed alternatief voor de SRT meting is het voorspellen van de spraakverstaanbaarheid met behulp van het STI (Speech Transmission Index, Steeneken & Houtgast, 1980) of het SII (Speech Intelligibility Index; ANSI 1997) model. Deze methoden berekenen aan de hand van de fysieke maskering hoeveel spraak informatie voor de luisteraar beschikbaar is. Beide modellen zijn goed gevalideerd met o.a. SRT metingen. De STI en SII hebben hun waarde bewezen zolang er voorspellingen worden gedaan van de spraakverstaanbaarheid in een omgeving waar continu stoorgeluid en/of galm aanwezig is. Beide methoden zijn echter ongeschikt om de spraakverstaanbaarheid te voorspellingen in realistische alledaagse fluctuerende stoorgeluiden. Aangezien de meeste omgevingsgeluiden juist meer fluctuerend van karakter zijn, was er al enige tijd behoefte om de spraakverstaanbaarheid in realistisch stoorgeluiden goed te kunnen voorspellen. Rhebergen & Versfeld (2005) hebben een aanpassing gemaakt op het SII model waardoor het nu ook mogelijk is om de spraakverstaanbaarheid in fluctuerend achtergrond geluid adequaat te voorspellen. Deze methode werkt goed zolang er uitsluitend sprake is van fysieke maskering. Als er naast de spreker een verstaanbare storende spreker actief is, dan wordt de spraakverstaanbaarheid overschat door deze nieuwe SII methode. De voorspelde SRT ligt een stuk lager dan de gemeten SRT. Dit verschil in SRT is het gevolg van “informational masking”.

Temporele aspecten

Het SII model houdt er dus geen rekening mee dat een luisteraar afgeleid kan worden door de verstaanbaarheid van een tweede storende spreker. Hoe groot de bijdrage van informational masking op de gemeten SRT is, is tot op heden nog een punt van discussie. Zoals gezegd: In veel studies wordt de invloed van “informational masking” omzeild door de storende tweede spreker achterstevoren af te spelen. Het gevolg is dat de spraakverstaanbaarheid in deze conditie gelijk of zelf beter is dan wanneer de spraak van de tweede spreker normaal wordt afgespeeld. Waar echter tot nu toe nooit rekening mee is gehouden is dat door de temporele structuur van achterstevoren afgespeelde spraak meer fysieke maskering geeft dan normaal afgespeelde spraak. Spraak bestaat immers hoofdzakelijk uit plofklanken. In figuur 1 en 2 wordt het effect van de extra maskering geïllustreerd. Bij een plofklank (figuur 1) loopt de maskering gelijk met de omhullende van de golfvorm.; bij een omgekeerde plofklank (figuur 2) kan het oor de abrupte offset niet volgen, hetgeen meer maskering geeft.
 


figuur 1. In het blauw de omhullende van een 8-Hz gemoduleerde zaagtand; in het rood de gesimuleerde resultante maskering.
 


figuur 2. In het blauw de omhullende van de omgekeerde 8-Hz gemoduleerde zaagtand; in het rood de resultante van de maskering.

Uit experimenten in ons lab blijkt dat ondanks het feit dat de gemiddelde temporele fluctuaties van beide condities gelijk zijn, de conditie in figuur 2 ongeveer 3 dB meer maskeert dan de conditie uit figuur 1. Verandering in de gemeten spraakverstaanbaarheid met omgekeerde spraak als stoorruis is dus het gevolg van twee tegengestelde effecten. Aan de ene kant een toename van de spraakverstaanbaarheid doordat de stoorspreker onverstaanbaar wordt en aan de ander kant een afname van de spraakverstaanbaarheid door toename van de temporele maskering. Om de bijdrage van “informational masking” op de spraakverstaanbaarheid te ontrafelen hebben we een SRT test afgenomen bij een groep (nederlandssprekende) normaalhorende proefpersonen. Het verstaan werd bemoeilijkt door verstaanbare (Nederlands) en onverstaanbare (Zweeds) stoorsprekers; normaal en achterstevoren afgespeeld. Door Zweedse spraak als stoorbron te nemen is in zowel de normale en achterstevoren afgespeelde conditie geen “informational masking” aanwezig; de proefpersonen kunnen immers niet verstaan wat de Zweedse spreker zegt. In de Zweedse condities is dus alleen fysieke maskering aanwezig. In de condities met een Nederlandse spreker, is er alleen “informational masking” aanwezig in de normaal afgespeelde conditie. De Zweedse stoorspraak achterstevoren afgespeeld gaf een stijging in SRT van 2.3 dB vergeleken met de Zweedse stoorspraak normaal afgespeeld. De stijging van de SRT is het gevolg van een toename van de temporele maskering. De Nederlandse stoorspraak achterstevoren afgespeeld gaf een daling in SRT van 4.3 dB vergeleken met de Nederlandse stoorspraak normaal afgespeeld. Dit resultaat is het gevolg van zowel een afname in “informational masking” als een toename van de temporele maskering. Doordat de temporele structuren van het Zweeds en het Nederlands min of meer gelijkwaardig zijn, kunnen we de mate van “informational masking” bij deze groep proefpersonen in deze condities schatten op 4.3 + 2.3 = 6.6 dB. Met dit experiment (Rhebergen, Versfeld & Dreschler, 2005) is aangetoond dat de overschatting van de SII voorspelling in een conditie met een verstaanbare storende spreker (Rhebergen & Versfeld, 2005) het gevolg is van “informational masking”. De gevoeligheid voor “informational masking” is waarschijnlijk sterk afhankelijk van de luisteraar, het type storende spreker en de inhoud van de spraak. Mensen die snel worden afgeleid zullen waarschijnlijk meer last van informational masking hebben dan mensen die zich goed kunnen concentreren. Bij het voorspellen van de spraakverstaanbaarheid in klaslokalen, van omroepinstallaties in treinen e.d. moet men er dus rekening mee houden dat naast fysieke maskering ook “informational masking” de spraakverstaanbaarheid negatief kan beïnvloeden.

Referenties

ANSI (1997). ANSI S3.5-1997, American national standard methods for calculation of the speech intelligibility index  (American National Standards Institute, New York).
Rhebergen, KS, and Versfeld, NJ (2005) A Speech Intelligibility Index-based approach to predict the speech reception threshold for sentences in fluctuating noise for normal-hearing listeners, J. Acoust. Soc. Am. 117, 2181-2192.
Rhebergen, KS, Versfeld, NJ, and Dreschler WA (2005). Release from informational masking by time reversal of native and non-native interfering speech, J. Acoust. Soc. Am. 118, 1274-1277.
Steeneken, H. J., and Houtgast, T. (1980). "A physical method for measuring speech-transmission quality", J.Acoust.Soc.Am. 67, 318-326.

Meer informatie over de SII e.d:
AMC, Klinische & Experimentele Audiologie
Rhebergen, KS, Versfeld, NJ, and Dreschler, WA, Modelvorming van spraakverstaan in fluctuerend achtergrond lawaai, Geluidnieuws, jaargang 6, nr 8, juli 2005
Rhebergen, KS, Versfeld, NJ, and Dreschler, WA, Extending the SII method for a better prediction of the speech intelligibility in fluctuating noise, Draft for extension to ANSI standard S3.5-1997; Section 5 between present sections 5.1 and 5.2”.

home...