Samsung en Google kondigen ‘Immersive Audio Model and Formats’ aan

Misschien zag je de laatste tijd artikels passeren over het zogenaamde ‘open source 3D-audioformaat van Samsung en Google dat de strijd aangaat met Dolby Atmos’. Gestart onder codenaam Project Caviar, nu officieel IAMF genoemd, oftewel Immersive Audio Model and Formats. Maar wat is het juist dat Samsung en Google ontwerpen? Een tip: het lijkt geen concurrent voor Dolby Atmos te zijn.

Met oog op wat IAMF zou betekenen voor muziek, film, tv en gaming, hebben we bij PXL-Music het ontwerpdocument ervan doorlopen om te kunnen schetsen wat te verwachten. Om Dolby Atmos en IAMF te kunnen vergelijken, eerst een beetje uitleg over Dolby Atmos.

Wat is Dolby Atmos eigenlijk?

De bestaansreden van Dolby Atmos is zodat er een manier is om immersive audio te kunnen mixen en afluisteren. Daarvoor heeft Dolby een ecosysteem uitgebouwd, bestaande uit 3 voorname onderdelen: een bestandsformaat, een renderer (bestaande uit encoder en/of decoder) en een standaard/model (dat speakeropstellingen, workflows om in Atmos te werken en meer definieert).

Op zich is het concept simpel: je maakt een mix in een DAW met Atmos-integratie. Je positioneert audiobronnen in de 3 dimensies, balanceert die onderling, kan er laten bewegen, en meer. Al die informatie wordt mee weggeschreven naar een Dolby Atmos ADM-bestand, waarin naast audio ook metadata zit die aangeeft hoe de audio te interpreteren.
Je luistert naar die mix in een luisteromgeving – op speakers of via een koptelefoon. Bij speakers specificeert Dolby waar je ze moet zetten, maar anders dan bij surround moet je niet per se een vast aantal speakers hebben. De luisteropstelling wordt gedetecteerd en de mix wordt zo transparant mogelijk vertaald zodat hij klinkt zoals door artiest en technieker bedoeld was – ongeacht het aantal luidsprekers. Bij een koptelefoon wordt de immersive mix gebinauraliseerd, kortweg een psycho-akoestische simulatie van immersive audio op koptelefoon.

Wat is IAMF dan?

IAMF heeft een fundamenteel andere bestaansreden: het wordt ontwikkeld om beter immersive audio te kunnen streamen over het internet. Er is geen goeie open source infrastructuur om efficiënt formaten als Dolby Atmos, NewAuro, Sony360 en MPEG-H te kunnen streamen. Dolby heeft bijvoorbeeld niet uitgewerkt hoe een ADM-bestand over het internet gestreamd moet worden. Er moet bijgevolg veel meer data verstuurd worden dan bij stereo, ongeacht wat voor systeem de luisteraar heeft, en dat is vaak verspilling. Ondersteuning voor de verschillende formaten is ook niet eenvoudig. Met IAMF willen Samsung en Google dat allemaal achter de schermen oplossen.

Het bouwt een beetje verder op het idee van Dolby Atmos. Er wordt namelijk ook hier gedetecteerd wat de luisteropstelling is bij de eindgebruiker zodat mix vertaald kan worden naar die opstelling. Alleen kan je audio één van meerdere immersive audioformaten zijn – welke ondersteund worden, is momenteel niet duidelijk – en gebeurt deze vertaling nog voor dat er gestreamd wordt. Zo wordt enkel een audiostream verstuurd die relevant is voor de luisteraar, gaande van mono tot volledig 7.1.4 immersive. Voor de koptelefoonervaring is er ondersteuning voor binauralisatie, maar die vertaling wordt momenteel niet door IAMF uitgewerkt.

Dit bespaart veel bandbreedte en is bijgevolg sneller om te versturen en goedkoper. De ervaring van de luisteraar zou niet beïnvloed worden tegenover die van een gewone Dolby Atmos, behalve door…

De IAMF mixer

IAMF definieert een extra mixer voor personalisatie en optimalisatie:

      • Personalisatie: je kan de commentaar luider zetten bij een sportwedstrijd, de taal veranderen, … Dit is vooral relevant bij internationale evenementen, content waarvoor versies in verschillende talen beschikbaar zijn.

      • Optimalisatie: een AI die de balans van de mix dynamisch gaat bijsturen zodat die ‘beter’ klinkt op jouw toestel. Hierbij wordt gekeken naar wat het toestel kan weergeven qua frequentiebalans, dynamisch bereik en vermogen. We vermoeden dat hier ook normalisatie van de luidheid zal gebeuren om stille stukken luider te maken en omgekeerd.

    Waarom IAMF?

    Samsung en Google hebben een lange en vruchtbare samenwerking en vullen elkaar goed aan met hardware en software. IAMF doet dat ook: het is software die rekening houdt met de beschikbare hardware van de luisteraar en de servers waarop de bestanden zich bevinden. Maar wat is de motivatie voor IAMF?

    Google signaleert hiermee dat ook zij een toekomst zien in immersive audio. Dat is voor ons duidelijk omdat de audio codecs die YouTube gebruikt voor streaming, namelijk Opus en mp4a/AAC, specifiek zijn opgenomen in het ontwerp. IAMF verlaagt de structurele financiële en technologische drempels om op grote schaal platformen als YouTube immersive te kunnen maken. Gezien YouTube ook een streamingdienst voor muziek is, kunnen op die manier de Dolby Atmos-bestanden die aangeleverd worden aan streaming aggregators ook via YouTube in immersive beluisterd worden.
    Samen met Samsung kunnen ze dan ook meteen immersive aanbieden aan een groot marktsegment van gsm’s en tablets. Er ontbreekt enkel een renderer voor binauralisatie. Als die er nog bijkomt met ingebouwde headtracking, kunnen ze rechtstreeks in concurrentie gaan met Apple Spatial Audio en de Apple Airpods.

    De concurrentie met Apple is volgens ons ook een belang voor Samsung. We vermoeden dat IAMF ook een rol speelt heeft voor de in augustus aangekondigde Samsung XR-headset, hun tegenhanger van de Apple Vision Pro VR-headset.
    In het IAMF ontwerp wordt namelijk veel aandacht gegeven aan scene-based audio, oftewel ambisonic. Voor immersive op koptelefoon wordt nochtans bijna uitsluitend binaurale rendering gebruikt, zoals bij Apple, Dolby Atmos in gaming via Microsoft Spatial Sound en het KLANG-systeem voor immersive in-ear monitoring tijdens concerten.
    Ambisonic heeft zichzelf al wel jaren bewezen als goeie match voor 360-graden video in VR, zoals ook op YouTube gebruikt wordt bij 360-graden video’s. Ambisonic en VR-video stellen namelijk een 360-graden omgeving op een equivalente manier voor, waardoor een hoofdbeweging zo een simpele rotatie van beeld en audio wordt. Dat vereist beduidend minder rekenkracht van je toestel dan binauralisatie en kan dienen om meer capaciteit van de processor aan de video te geven bij goedkopere VR-brillen.
    Het kan ook gewoon zijn dat Google 360-graden video’s met ambisonic audio op YouTube wil blijven ondersteunen. Dat zal de toekomst uitwijzen.

    Conclusie

    Gaat IAMF Dolby Atmos vervangen? Nee, want IAMF is een framework om immersive audio en bestaande formaten beter te ondersteunen, geen nieuw formaat op zich. IAMF is een systeem dat op de achtergrond werkt bij streaming en waar jij zoals codecs eigenlijk amper mee geconfronteerd zal worden.

    Dolby Atmos en IAMF bevinden zich in totaal andere domeinen van immersive audio technologie en het idee van een grote concurrentiestrijd is helaas serieus overdreven. We betreuren dat bijna geen enkel artikel hierover het correcte verhaal vertelt. Dolby Atmos zit diep geïntegreerd in muziek, film, tv en gaming en dus is het zeker dat dat formaat door IAMF ondersteund zal worden. Zo niet is dat bijna een oorlogsverklaring aan de content creators die erin geïnvesteerd hebben.

    IAMF zou de drempel tot immersive streaming beduidend verlagen en dat is hard nodig, want ondersteuning voor immersive audio is momenteel formaatafhankelijk. Dolby Atmos wordt op Apple Music, TIDAL, Amazon Music, Netflix en Amazon Prime telkens op een iets andere manier geïmplementeerd en aangeboden, dikwijls met beperkingen van welke toestellen ondersteund worden. NewAuro heeft nu ook een codec voor streaming die ook weer per streamingplatform speciaal geïntegreerd moet worden.
    Met IAMF wordt het formaat al gedecodeerd voor het gestreamd wordt en daardoor kan muziek in alle immersive audioformaten tot bij de luisteraar geraken. Dit is natuurlijk met de belangrijke kanttekening dat het decoderen wel goed moet werken voor alle formaten.

    We zijn lichtjes bezorgd over het ‘optimalisatie’-gedeelte van de mixer module. Er is het risico dat hiermee de artistieke keuzes in de balans en dynamiek van een mix drastisch veranderd worden. Die zijn vaak in functie van emotie en de spanningsboog en dat kan de beleving negatief beïnvloeden. We hopen dat die optioneel wordt en niet verplicht of standaard aan staat (zoals ook gebeurt op tv’s met motion smoothing).
    Een gelijkaardig verhaal rond luidheid op radiozenders leert ons dat het niet het einde van kwalitatieve immersive audio zou betekenen, maar we moeten ons afvragen in hoeverre dit soort technologie nodig en een meerwaarde is. Wel kan dit soort technologie helpen bij mensen met gehoorschade om beter dingen te verstaan, dus we wachten af om te kijken wat het eindproduct is. We zijn alvast enthousiast.

    Galerij