Hoe werkt audio in een game?

In een reeks artikels probeert PXL-Music een beeld te schetsen van immersive audio en waar we op audiovlak staan in het virtuele landschap van vandaag. Daarbij kijken we naar onder andere gaming, streaming, de muziekindustrie en het internet. In dit artikel schetsen we hoe geluid werkt in gaming en hoe dat verschilt met hoe wij doorgaans in de cultuursector geluid beschouwen.

De cultuursector: gemeenschappelijk met tijd als referentie

In de cultuursector hebben we veel verschillende manieren van werken, elks met een eigen unieke workflow en beleving. Denk maar aan een opnamestudio, een band of solo-artiest, een concertzaal, een post-productiebedrijf, een festival, een klassiek orkest, … Allen creëren we belevingen waarbij we heel specifiek bezig zijn met het tijdsverloop van de beleving. Albums, films en series worden op een timeline uitgewerkt en krijgen een finale, vastgelegde, tijdsduur. Festivals en concerten worden geconcretiseerd met timetables en draaiboeken. De toeschouwer of luisteraar wordt meer gezien als onderdeel van het publiek en heeft weinig invloed op de beleving, die meer als gemeenschappelijk kan gezien worden. Er is een gedefinieerd lineair verloop van start tot einde.

Gaming: individuele ervaring met gebeurtenissen als referentie

De beleving in een game is radicaal anders. Er wordt niet gekeken naar 1 beleving voor een groot publiek, maar wel gefocust op de individuele beleving van wat nu een speler is. Die speler heeft controle en beïnvloedt de beleving volledig door hoe die speelt. Er kunnen bij wijze van spreken ontelbaar mogelijke timelines voorvallen. Er is actie en reactie: geluid en beeld volgen op handelingen van de speler, tegelijkertijd reageert de speler op wat die ervaart via geluid en beeld. We spreken van interactiviteit. Maar hoe bouw je die ervaring auditief op?

Het tijdsverloop is namelijk niet de basis in games; in de plaats daarvan wordt gekeken naar de gebeurtenissen en bouwstenen van de 3D-wereld om de beleving te vormen. Die vormen een complexe set aan parameters die bepalen wat de uiteindelijke audio mix wordt, waarbij een relevante mix belangrijk is. Als de speler in het spel applaudisseert of iets eet, wil je die geluiden horen. Als de speler op een houten brug over water loopt, zal dat anders klinken dan wanneer die door het gras loopt. Als de speler zich bevindt in een menigte, wil je individuele stemmen kunnen horen rondom. Maar een groep mensen ver weg wil je eerder vaag en onpersoonlijk ervaren. Op vlak van muziek zullen specifieke veranderingen in het spel (door de speler) veranderingen in de muziek signaleren. Maar zo lang die niet gebeuren, zal de muziek moeten blijven doorlopen.

Dat heeft natuurlijk invloed op de manier hoe de componist en sound designer moeten werken. Die kunnen nog steeds in de DAW hun klanken opbouwen, maar zullen die dan daaruit individuele audio assets op een specifieke manier moeten exporteren. De componist moet meer in loops werken, de sound designer moet geluiden afzonderlijk gaan bouwen en varianten voorzien voor de juiste context.

Hoe maken we de juiste mix in een game?

De klassieke manier van werken (nog steeds gebruikt voor games met een beperkte scope of budget) voorziet een audio programmeur die samenwerkt met de componist en sound designer. Die stelt een audio feature set op waarvoor zij geluid moeten voorzien en zal programmacode schrijven om in de game engine hun audio te koppelen aan gebeurtenissen en objecten. Zo wordt de link gelegd tussen beeld en geluid.

Voor een grotere game brengt dat wel de nodige complexiteit en precisie met zich mee. Wil je een bepaald geluidseffect, dan zal je het moeten bouwen. Aanpassingen en mixing moeten ook altijd via die programmeur gebeuren, tenzij je sound designer ook heeft leren programmeren en dus ook de programmeur is. Er moeten veel afspraken gemaakt worden en alles moet uitvoerig getest worden voor alle scenario’s. In grote games met een open wereld om te verkennen zijn er teveel parameters en functionaliteit om rekening mee te houden. Daarom werden audio middleware ontwikkeld.

Enter: audio middleware

Middleware zijn softwarepakketten die een bepaald element van een game voor zich nemen. Unreal Engine en Unity zijn middleware die de implementatie van visuals voor zich nemen. Audio middleware, waarvan de belangrijkste voorbeelden Wwise en FMOD zijn, nemen de implementatie van geluid voor zich. Zij voorzien een eigen gestandaardiseerde dedicated audio engine die achter de schermen van een game in real-time meedraait.

Die audio engine luistert naar zogenaamde game calls, data die het spel uitstuurt om aan te geven wat er juist gebeurt in de 3D-wereld (de hiervoor besproken parameters). Denk aan informatie zoals de ruimte waarin de speler zich begeeft, wat de ondergrond is, of er andere personen of objecten in de ruimte zijn die geluid maken, informatie over de gezondheid van de speler, wanneer die voetstappen zet, enzovoort. Via een softwareomgeving kan je dan tools gebruiken om gepast auditief te reageren op die game calls, zodat je een ‘voetstap’ en ‘ruimte’ game call kan koppelen aan het juiste geluid van een voetstap in die ruimte.

Met de audio middleware is er geen programmeerwerk meer nodig om geluid en beeld te integreren. De engine krijg je erbij, jij moet die wel vullen met zogenaamde soundbanks opgebouwd uit de audio assets. Daarnaast moet je ook vastleggen wanneer en hoe de engine een coherente mix van alles maakt. De job van audio programmeur (nu: audio implementator) verschuift naar creatief denken over toepassingen om game calls te koppelen aan geluid. Daardoor wordt de taak plots heel toegankelijk voor een sound designer, die zelfs gedeeltelijk de DAW kan vervangen door de middleware. Want tegenwoordig kan je opname, editing- en mixing in de audio middleware doen. En hoewel de game zelf geen timeline heeft, kan je wel bijvoorbeeld in FMOD op een timeline muziek gaan opbouwen uit individuele sporen.

De voordelen van audio middleware zijn duidelijk en als gevolg draait nu achter alle grote games een audio middleware engine. Het laat meer dan ooit toe om de sonische en artistieke identiteit voor een game uit te werken, zeker nu sinds 2023 zowel Wwise als FMOD gratis zijn voor indie developers.
De ondersteuning van nieuwe technologie in middleware zorgt zo ook voor een grotere beschikbaar van die technologie voor gebruik in games. Zo zit Dolby Atmos ondertussen geïntegreerd in Wwise, FMOD en Unreal Engine, waardoor je meteen je game kan ontwikkelen met immersive audio.

In het volgend artikel vertellen we waarom immersive audio en gaming zo goed samengaan…