Iedereen kan tegenwoordig geluid en muziek op het internet terugvinden. Om het af te spelen, hoef je er maar op te klikken en je speakers in te schakelen. Achter die muzieknoten en geluiden gaat echter heel wat technologie schuil die dat allemaal mogelijk moet maken.
Arthur de Graef
Of het nu om brullende gitaren, moeders of motors gaat: in feite ‘ziet’ geluid er altijd hetzelfde uit, ook al kan het veel verschillende vormen aannemen als je ernaar luistert. In feite luister je namelijk naar trillingen door drukverschillen in de lucht. Die worden, als alles goed gaat, opgevangen door het trommelvlies en daarna doorgegeven langs de gehoorbeentjes: hamer, aambeeld en stijgbeugel. De trillingen worden zo naar het ‘slakkenhuis’ gestuurd, waar ze door een vloeistof reizen en allerlei kleine haartjes aan het trillen brengen. De vibraties worden op hun beurt naar je brein getransporteerd door neuronen, waar alles omgezet wordt in geluiden die je kan herkennen. Hoe onwaarschijnlijk het ook lijkt: álle geluiden die je hoort, bestaan in feite uit trillingen of drukverschillen in de lucht. Die drukverschillen kunnen beschreven worden als golven. Daarbij worden factoren als toonhoogte beïnvloed door de frequentie van een golf, of hoeveel ‘toppen’ en ‘dalen’ zo’n golf laat zien binnen een tijdspanne van 1 seconde. Deze waarde wordt uitgedrukt in ‘hertz’, dat afgekort wordt tot ‘Hz’. Een grondtoon van 440 Hz komt overeen met de noot ‘la’, al zal die ‘kale’ 440 Hz nogal saai klinken. Piano’s, gitaren en trompetten krijgen een heleboel onder- en boventonen, die meervouden zijn van de grondtoon. Het is op die manier, volgens de wetten van de fysica, dat dingen geluid maken en klinken zoals ze klinken. Het volume wordt dan weer bepaald door de amplitude van zo’n golf, ofwel hoe hoog de pieken en hoe laag de dalen van de golf reiken.
Van geluid naar audio
Met de wetten van de fysica kan zo’n computer echter niet veel aanvangen: de computer kan namelijk niet op een trompet blazen of op een piano spelen. Computers weten enkel hoe ze met bits en bytes moeten werken. Op de achtergrond zorgen allerlei systemen ervoor dat de geluidsgolven in bits en bytes opgeslagen kunnen worden en tijdens het afspelen opnieuw omgezet worden in geluidsgolven. Die omzetting van analoge geluidsgolf naar digitale drager gaat meestal gepaard met een beetje verlies. Dat is meteen ook de reden dat een liveoptreden zoveel beter klinkt dan de opname ervan op cd, als je tenminste een goede plek in de zaal hebt. Er werden al verschillende technologieën voorgesteld om audio zo natuurgetrouw mogelijk weer te geven. Enkele van die technologieën ken je waarschijnlijk al: MP3, AAC en FLAC zijn slechts enkele van die technologieën die ook wel audiocoderingsformaten genoemd. Die formaten zorgen ervoor dat audio op digitale dragers bijgehouden kan worden. Audiocodecs zorgen dan weer voor de algoritmes die de geluidsgolven omzetten in computertaal en terug uitpakken naar geluidsgolven, zodat jij naar muziek kunt luisteren. Enkele van die codecs zijn LAME (gebruikt voor het MP3-formaat), FLAC en ALAC. Vaak hangen de namen van codecs en bestandsformaten samen, maar dat is niet noodzakelijk.
Pulse-codemodulatie
Er zijn verschillende manieren om geluidsgolven visueel voor te stellen |
De geschiedenis van het eerste digitale audioformaat gaat terug tot die van de telegraaf. De technologie werd in feite uitgevonden om gegevens van meerdere telegraaflijnen over een enkele lijn verder te sturen. Met andere woorden: de gegevens van meerdere telegrafen moesten verkleind worden om ze tegelijkertijd door te kunnen sturen. Hiervoor werd een techniek ontwikkeld die ook vandaag nog gebruikt wordt: pulse-codemodulatie. De techniek gaat in feite voort op de wetten van de fysica en op golven en werkt altijd, of de golven nu afkomstig zijn van een telegraaf, spraak of een muziekinstrument.
Daarvoor moet je eerst een goed beeld hebben van hoe zo’n golf er daadwerkelijk uitziet. Een schematische voorstelling als hiernaast is makkelijk om geluid te visualiseren, maar klopt eigenlijk niet helemaal. Geluidsgolven staan namelijk niet stil, maar zijn continu in beweging. De afbeeldingen van golven die je hiernaast ziet, zijn in feite maar momentopnames. Met pulse-codemodulatie worden meerdere momentopnames gemaakt en achter elkaar gezet, om het geluid op die manier digitaal op te kunnen slaan. Daarbij zijn twee termen belangrijk: enerzijds is er de sampling rate die, uitgedrukt in Hz, aangeeft hoeveel van die momentopnames of samples er per seconde gemaakt worden. Heb je een audiobestand met een sampling rate van 32 kHz? Dan wilt dat zeggen dat er 32.000 keren per seconde zo’n momentopname gemaakt wordt. Anderzijds is er de bitdiepte, die aangeeft hoeveel bits zo één momentopname in beslag neemt. In 1967 werd in Japan het eerste PCM-opnameapparaat ontwikkeld. Geluidssignalen werden opgenomen aan een sampling rate van 30 kHz, met een diepte van 12 bits. De geluidssignalen werden opgeslagen op videotapes en konden op die manier door mensen thuis afgespeeld worden. Twee jaar later werd de opnameapparatuur flink verbeterd en kwam er ondersteuning voor tweekanaals-stereogeluid, met een sampling rate van 32 kHz en een bitdiepte van 13. Wel duurde het tot 1979 toen met Ry Cooders Bop till you Drop het eerste muziekalbum digitaal opgenomen werd met een sampling rate van 50 kHz en een 16-bits diepte.
Wat vandaag op een computer kan, vereiste vroeger een flinke installatie |
Compact discs en cassettes
Systemen om thuis video’s te kijken, waren op dat moment nog erg duur en voor de meeste consumenten simpelweg onbetaalbaar. Pas met de introductie van de compact disc of cd in 1982 konden muziekliefhebbers voor het eerst naar digitale opnames luisteren. Om de cd’s enigszins compact te houden, werd geopteerd om de geluidskwaliteit licht naar beneden te halen: de sampling rate werd 44.100 Hz, maar de bitdiepte bleef wel behouden. Daardoor kon één schijf maximaal 80 minuten aan audio dragen. Ry Cooders Bop till you Drop moet op videotape beter geklonken hebben dan op cd, maar cd’s kregen de voorkeur omdat ze nu eenmaal betaalbaar en ongelooflijk praktisch waren. De coderingstechniek die men hiervoor gebruikte, wordt Compact Disc Digital Audio (CD-DA) genoemd. Die standaard werd ontwikkeld door Sony en Panasonic en staat te boek als het eerste echte digitale audioformaat.
Muziek luisteren was ooit heel wat minder compact |
Kort daarna, in 1987 en 1992, kwamen ook de eerste digitale tapes voor consumenten op de markt. Hoewel die digitale cassettes geluidstechnisch een pak beter in elkaar staken dan hun analoge tegenhangers, werden ze nooit echt succesvol. Zowel de digitale audiotape (DAT) als de digitale compacte cassettes (DCC) waren een kort leven beschoren. De digitale audiotapes uit 1987 bleven iets langer succesvol, omdat het mogelijk was om geluidsopnames te maken met een hogere sampling rate dan cd’s. Tegen 1996, amper vier jaar na de lancering van DCC, maakte Philips bekend dat het geen tapes en producten meer zou produceren. Het oudere DAT kwam in 2015 aan zijn einde, toen Sony bekendmaakte dat het geen blanco tapes meer zou produceren. De laatste Walkman, waarmee je de cassettes kon afspelen, rolde in november 2005 van de band.
Grote bestanden
De populariteit van thuiscomputers kwam in de jaren 80 op gang, waardoor mensen ook via die nieuwe apparaten geluid wilden afspelen. Om ervoor te zorgen dat gebruikers geluidsbestanden konden opslaan op hun Macintosh-computers, ontwikkelde Apple in 1988 het Audio Interchange File Format (AIFF). In tegenstelling tot veel audiobestandsformaten die we vandaag kennen, waren AIFF-bestanden een niet-gecomprimeerde weergave van PCM-technologie. In theorie is de geluidskwaliteit daardoor veel beter, maar nemen de bestanden véél meer schijfruimte in beslag. Vandaag de dag zijn er opslagmediums van een terabyte en meer, maar in de tijd van de floppy disks lag dat een beetje anders. Erg praktisch was het dus niet om in AIFF-formaat naar muziek te luisteren. Wie geen Macintosh-computer had maar wel een Windows-machine, is ongetwijfeld bekend met het Waveform Audio File Format, ook wel gekend als WAV. In de begindagen werd ook hier met uitsluitend niet-gecomprimeerde audio gewerkt, waardoor de bestanden dikwijls nogal groot uitvielen. Later werd hier ondersteuning voor compressie aan toegevoegd, maar niet-gecomprimeerde audio blijft het meest gebruikelijke. Daardoor is de kwaliteit van het audiobestand identiek aan die van de opname: er gaan geen gegevens verloren door de omzettingen naar AIFF of WAV.
Gecomprimeerd en gecompromitteerd
Een opname van één minuut, met een sampling rate van 44,1 kHz en 16bit diepte, zou in zowel AIFF- als WAV-formaat iets groter zijn dan 5 MB. Een cd met 75 minuten aan muziek zou dan ongeveer 375 MB groot zijn. Een oplossing is om al die muziek op externe harde schijven op te slaan, al is dat nogal omslachtig. Een betere oplossing zou zijn om de audio in kleiner formaat aan te bieden. Dat is iets waar audioformaten als MP3 en FLAC handig op inspelen. Om te vergelijken: dezelfde opname zou in MP3-formaat tussen de 1 en 2,29 MB in beslag nemen, afhankelijk van de bitrate (zie de alinea Lossy of lossless). Dat komt doordat mp3-bestanden, in tegenstelling tot AIFF en WAV, wél gecomprimeerd zijn. Om dat te doen, worden eigenlijk delen van de geluidsgolf ‘afgesneden’. Dit gebeurt wel met enige logica. Mensen kunnen bijvoorbeeld niet alle geluiden tegelijkertijd waarnemen. Gaat het om een luide opname? Dan worden alle frequenties boven de 16 kHz gewoon geschrapt: die zouden toch overstemd worden door de andere klanken. De gemiddelde mens is bovendien gevoelig voor tonen tussen de 1 en 5 kHz. De frequenties die je niet hoort, kunnen daardoor gewoon weggelaten worden.
Lossy of lossless?
Bij MP3-bestanden wordt vaak gesproken over de bitrate. Dit cijfer geeft aan hoeveel bits de opname per seconde in beslag neemt. Stel dat een opname in cd-kwaliteit een minuut duurt: een MP3-bestand met een bitrate van 256 kbps zal ongeveer 5,5 keer kleiner zijn, zonder merkbaar slechter te klinken. Door de bitrate naar beneden te halen, kan het nog de helft kleiner, al boet je dan wel in op geluidskwaliteit. Behalve MP3 zijn er nog andere lossy bestandsformaten. De uitvinders van MP3 ontwikkelden bijvoorbeeld ook AAC, dat voor betere geluidskwaliteit kan zorgen in kleinere bestanden. Dit is het standaard audioformaat voor Apple Music en YouTube. Spotify gebruikt dan weer Ogg Vorbis, een opensource-formaat dat het zonder extra kosten kan gebruiken. Of je de frequenties die bij MP3-conversie verloren gaan hoort of niet? Dat zal wat van persoon tot persoon afhangen. Audiofielen vinden het idee dat er muziek verloren gaat maar niets, waardoor al snel de vraag ontstond naar kleinere audiobestandsformaten zonder verlies. Met het audioformaat FLAC werd die vraag in 2001 beantwoord: een digitaal audioformaat dat kleiner was dan AIFF- en WAV-bestanden, maar dat toch de volledige audiogolf in het bestand opnam. Hoe groot zo’n Free Losless Audio Codec-bestand precies is, hangt af van de mate van compressie. Vast staat wel dat zo’n FLAC-bestand 50 tot 70 procent kleiner is dan niet-gecomprimeerde AIFF- en WAV-files, zonder aan audiokwaliteit in te boeten.
Beste audioformaat?
Wat nu het ‘beste’ audioformaat is? Dat hangt ervan af waarvoor het moet dienen. Wil je muziek luisteren op je telefoon? Dan is AAC het aangewezen formaat. Wil je veel muziek opslaan op je pc? Doe dat dan best in MP3- of FLAC-formaat, afhankelijk van de gewenste geluidskwaliteit. De meeste mensen horen alleen op de betere speakersystemen het verschil tussen 320kbps-MP3 en FLAC. Je kunt ook het betere AAC gebruiken in plaats van MP3, al is het iets omslachtiger om die .aac- en .m4a-bestanden af te spelen. AIFF en WAV zijn dan weer interessant voor wie met muziek werkt. Hoe dan ook: tussen dat ene nummer op Spotify en de opnamestudio zitten jaren van ontwikkeling en verbetering, zodat je van kwalitatieve audio kunt genieten zonder meerdere cd’s, cassettes of harde schijven mee te sleuren.