Modelvorming van spraakverstaan in fluctuerend achtergrond lawaai

Koenraad S Rhebergen, Niek J. Versfeld & Wouter A. Dreschler, 16 juni 2005
AMC, KNO / Klinische & Experimentele Audiologie, email: k.s.rhebergen@amc.uva.nl 

Eén van de grootste beperkingen die ervoor zorgt dat slechthorendheid als een handicap wordt ervaren is het slecht verstaan van spraak in lawaaiige situaties. Al meer dan een halve eeuw geleden is begonnen met het modelleren van dit probleem (French & Steinberg, 1947; Fletcher & Galt, 1950; Kryter, 1962) en op dit moment wordt de SII (Speech Intelligibility Index; American National Standard ANSI S3.5-1997 “Methods for Calculation of the Speech Intelligibility Index”) en de STI (Speech Transmission Index, Steeneken & Houtgast, 1980) veel gebruikt om te kunnen voorspellen hoe goed een normaal- of slechthorende persoon kan verstaan bij een gegeven stoorgeluid. Echter, deze modellen zijn alleen valide voor continue, stationaire stoor geluiden. De meeste alledaagse geluiden zijn echter juist niet stationair, maar fluctueren (denk aan geroezemoes of één of meerdere andere interfererende stemmen). Het blijkt dat normaalhorenden op één of andere manier gebruik kunnen maken van de relatief zachte periodes (“gaten”) in een dergelijk fluctuerend geluid en daardoor veel beter kunnen verstaan dan bij een even hard, maar stationair geluid. Dit verschil in signaal-ruisverhouding kan oplopen tot meer dan 6 dB, wat vergelijkbaar is met een halvering van de afstand tussen spreker en luisteraar. Een slechthorende lukt het helaas vaak veel minder goed gebruik te maken van deze “gaten” in het stoorgeluid. Het moge duidelijk zijn dat deze beperking juist in een sociale omgeving (recepties, verjaardagen, vergaderingen, stations, etc.) de grootste last geeft, vaak met een sociaal isolement tot gevolg.

De SII en STI methode berekenen aan de hand van het gemiddelde frequentie - (SII methode) of modulatie spectrum (STI methode) hoeveel spraakinformatie boven de ruis (of nagalm) uitkomt. Doordat beide methodes gebruik maken van het gemiddelde berekende spectrum van de spraak en ruis over een tijdsduur van 15 tot 30 seconden, wordt er dus geen rekening gehouden met intensiteit fluctuaties van de stoorbronnen. Hierdoor is het niet mogelijk om een goede voorspelling te doen van de spraakverstaanbaarheid in fluctuerend achtergrond geluid.

Medio 2002 is bij de groep Klinische & Experimentele Audiologie op het AMC begonnen met een project om spraakverstaan in fluctuerend achtergrondgeluid te kunnen voorspellen (modelleren). Er is de afgelopen jaren bekeken in hoeverre de al bestaande modellen uitgebreid kunnen worden om de spraakverstaanbaarheid in zowel continu als fluctuerend achtergrondgeluid te kunnen modelleren. De ontwikkelde methode is uiteindelijk een uitbreiding geworden op het bestaan de SII-model. Het principe van deze methode is dat het spraak- en stoorsignaal in kleine tijdsframes opgedeeld worden en voor elk tijdsframe een SII-waarde berekend wordt. Zo’n SII-waarde representeert als het ware de hoeveelheid spraakinformatie die op dat moment beschikbaar is voor de luisteraar. Vervolgens wordt het gemiddelde van deze SII-waarden berekend, die de gemiddelde hoeveelheid spraakinformatie, en daarmee de uiteindelijke spraakverstaanbaarheid representeert. Met behulp van bestaande meetgegevens uit de literatuur is een aanpassing gemaakt op het bestaande SII model (Rhebergen & Versfeld, 2005). Met deze uitbreiding op het SII model is het, in tegenstelling tot de STI en de originele SII, nu wel mogelijk om de spraakverstaanbaarheid in realistisch achtergrond geluid te voorspellen. Op basis van deze publicatie heeft de Acoustical Society of America (ASA) de auteurs gevraagd om zitting te nemen in Working Group S3-79, waarbij het de bedoeling is dat bij herziening van de ANSI S3.5 standaard (in 2007) de uitbreiding op de SII wordt meegenomen.

Referenties

  1. ANSI (1997). "ANSI S3.5-1997, ''American national standard methods for calculation of the speech intelligibility index “(American National Standards Institute, New York).
  2. Fletcher, H., and Galt, R. H. (1950). "The perception of speech and its relation to telephony," J.Acoust.Soc.Am. 22, 89-151.
  3. French, N. R., and Steinberg, J. C. (1947). "Factors governing the intelligibility of speech sounds," J.Acoust.Soc.Am. 19, 90-919.
  4. Kryter, K. D. (1962). "Methods for the calculation and use of the articulation index," J.Acoust.Soc.Am. 34, 1689-1697.
  5. Rhebergen, K. S., and Versfeld, N. J. (2005).”A Speech Intelligibility Index-based approach to predict the speech reception threshold for sentences in fluctuating noise for normal-hearing listeners,” J. Acoust. Soc. Am. 117, 2181-2192.
  6. Steeneken, H. J., and Houtgast, T. (1980). "A physical method for measuring speech-transmission quality," J.Acoust.Soc.Am. 67, 318-326.

 

home...