Hva er multimodal AI?
Sansene våre samler hele tiden inntrykk fra omverdenen. Men er dette unikt for mennesker og dyr?
Nå er det faktisk mulig å gi kunstig intelligens «digitale sanser». Dermed kan AI også samle inn sanseinntrykk. Disse inntrykkene digitaliseres, og blir om til data.
Multimodal AI er en kunstig intelligens som forstår ulike typer data, som bilder, tekst, lyd, stemmer og video.1 A Review on Methods and Applications in Multimodal Deep Learning
Her spør jeg ChatGPT: Hva betyr det at du er multimodal?
Er ChatGPT multimodal?
Vi sier at multimodal AI jobber på tvers av datakilder eller modaliteter.3 A Review on Methods and Applications in Multimodal Deep Learning
For eksempel kan du laste opp et bilde i ChatGPT, og spørre om AI-en kan beskrive bildet. Da jobber ChatGPT med to modaliteter / datakilder: bilde og tekst.
Alternativt kan du be ChatGPT lage et bilde.
Slik ser det ut:

Les guiden: Lag AI-bilder i ChatGPT
I fremtiden er det mulig at ChatGPT får evnen til å lage musikk. Da vil man i teorien kunne laste opp et bilde som ChatGPT lager en sang av.
Med denne teknologien kan AI samhandle med verden rundt seg på en mer menneskelig måte.
Unimodal vs. multimodal AI
De fleste AI-systemer i dag er såkalt «unimodale». Unimodal AI bruker bare én datakilde.
Autokorrektur i Word er et eksempel på en unimodal AI. Grunnen er at den bare forholder seg til tekst.
Unimodale modeller har ofte begrenset funksjonalitet. De er skreddersydde for ett konkret formål.
Multimodal AI bruker som sagt flere datakilder. Siden de har tilgang til mer data, får de en bredere forståelse.
De kan brukes i flere sammenhenger og blir derfor mer fleksible.
En sammenligning mellom unimodal og multimodal AI:
Unimodal AI | Multimodal AI |
En datakilde | Flere datakilder |
Begrenset forståelse for sammenheng | Større forståelse for sammenheng |
Skreddersydd til ett formål | Fleksibel i ulike scenarioer |
Enklere å utvikle | Dyrere og mer tidkrevende å utvikle |
Selv om unimodal AI fortsatt dominerer, vil vi trolig se en gradvis overgang til multimodal AI etter hvert som teknologien modnes.
Dette vil ta oss et steg nærmere menneskelignende AI.
Slik fungerer multimodal AI
Alt starter med at AI-en lærer fra store datasett. Disse datasettene har forskjellige datakilder som beskriver de samme tingene.
For eksempel: Hvis du vil lære AI-en hvordan en katt ser ut, viser du bilder, videoer og tekster av katten.
Deretter lærer modellene å trekke ut viktig informasjon, og sette dem sammen til én helhet. Jo flere relevante datakilder, desto bedre forståelse.
Dette er likt hvordan vi mennesker lærer.4 A Review on Methods and Applications in Multimodal Deep Learning
Multimodale AI-systemer består vanligvis av tre deler:
- Data: AI-en tar imot og behandler ulike datatyper hver for seg, for eksempel tekst, bilder eller lyd. Nevrale nettverk brukes til dette.
- Kombinasjon: Her kombineres informasjonen fra de ulike datakildene.
- Transformasjon: AI-en lager noe nytt basert på det den har lært. For eksempel kan den lage en ny video basert på bilder og tekst.
Hva kan multimodal AI brukes til?
Multimodal AI kan brukes til mange nyttige ting:
- Sortere og organisere store mengder informasjon
- Å være drivkraften bak AI-assistenter og AI-drevne roboter
- Gi bedre produktanbefalinger basert på bilder, tekst og brukerdata
- Lage mer realistiske VR-opplevelser
- La selvkjørende biler navigere trygt
Fordeler og ulemper med teknologien
Fordeler
En av fordelene med multimodal AI er at den gir mer nyanserte analyser. Siden den får data fra mange ulike kilder, får den et bedre grunnlag for å ta avgjørelser.
Ved å kombinere flere datatyper kan AI-en bli mer robust og gjøre mindre feil. Hvis én datakilde inneholder støy eller feil, kan de andre datakildene kompensere for dette.
Teknologien kan også kombinere informasjon på nye og kreative måter. Multimodale modeller kan for eksempel kombinere tekst, bilder og lyd på nye måter for å lage kunst, musikk eller historier.
I den sammenhengen kan AI-en inspirere oss. Den kan foreslå nye ideer som vi ellers ikke ville tenkt på. På denne måten kan AI-en være et verktøy for innovasjon og nyskaping.
Ulemper
Multimodal AI byr på nye muligheter, men den har også utfordringer som må løses før teknologien kan tas i bruk.
For det første krever AI-en store mengder treningsdata for å fungere optimalt. Å skaffe nok relevante data i ulike modaliteter som tekst, lyd, bilder og video er krevende. Dette er en flaskehals i utviklingen.
Ellers må modellene være svært avanserte for å kunne kombinere og forstå informasjon fra ulike datakilder.
En annen utfordring er å få de ulike modalitetene til å fungere sømløst. Hvis det ikke er tett samsvar mellom for eksempel lyd og video, kan modellen feiltolke informasjonen. Dette krever grundig testing og finjustering.
Til slutt er det en viss fare for bias og feilinformasjon når modellene ikke forstår sammenhengen mellom ulike datakilder. Dette kan føre til upresise eller direkte feilaktige avgjørelser.
Nøye overvåking er nødvendig inntil modellene blir bedre.
Fremtiden til multimodal kunstig intelligens
Fremtidens multimodale chatbots
Dagens chatbots er stort sett begrenset til tekst. Men fremtidens AI-er vil kunne veksle sømløst mellom ulike medier.
ChatGPTs nye funksjoner er bare et glimt av hva som kommer på den multimodale AI-fronten.5 IEEE
For eksempel kan en multimodal chatbot be brukeren om å beskrive et problem, for så å generere en instruksjonsvideo basert på beskrivelsen.
Eller den kan vise grafikk og diagrammer for å illustrere et svar. Ved å kombinere modaliteter på denne måten, kan AI-en hjelpe oss å lære raskere.
For eksempel utvikler Microsoft CoDi, en generativ AI som kan lage og forstå tekst, bilder, lyd og video.6 Microsoft
Per dags dato må du bruke ulike AI-er til ulike formål. I fremtiden vil sannsynligvis AI-ene fungere helhetlig. AI vil kunne veksle mellom tale, tekst, bilder og video helt automatisk.7 IEEE
Multimodal AI i roboter
Allerede i dag har Google utviklet PaLM-e, en teknologi som kombinerer språkmodeller og roboter.8 PaLM-E
Ved å koble multimodal AI til roboter, kan de ta del i den fysiske verden.
Her er et eksempel på hvordan Googles PaLM-e fungerer:
Multimodal robot-AI vil kunne hente ting til deg, produsere varer, inspisere anlegg, drive logistikk og kundeservice.
Du vil kunne gi dem muntlige instruksjoner og få tilbakemelding via tale, tekst eller video.
Fra søkemotorer til AI-assistenter
I mange år har vi vært vante til å søke etter det vi trenger i Google.
Vi skriver inn noen søkeord, trykker på søk og får opp en liste over nettsider som kan inneholde det vi leter etter.
Deretter må vi gå gjennom resultatene, klikke oss inn på nettsidene og lese gjennom innholdet. Alt dette for å finne informasjonen vi er ute etter.
Dette er en tidkrevende prosess som krever mye manuelt arbeid.
Tenk deg hvor mye enklere det hadde vært om søkemotoren bare kunne gi deg svaret du trenger med en gang?
ChatGPT, Bing, Bard og Perplexity har nå kombinert søkemotorer med samtaleroboter. Flere av disse har fått evnen til å forstå tale, dokumenter og bilder. I fremtiden vil de sannsynligvis kunne forstå videoer.
Gradvis blir de mer og mer som AI-assistenter, som forstår helheten i hva du spør etter.
Utviklingen av multimodale AI-assistenter vil føre til en helt ny søkeopplevelse.
I stedet for å skrive inn søkeord, kan vi snakke til AI-assistenten og få svar i tale. Vi kan vise den bilder og videoer for å få mer nyanserte svar.
Augmented reality-briller med innebygde AI-assistenter kan gi oss informasjon om omgivelsene våre i sanntid. Vi kan peke på bygninger og objekter og få vist nyttig informasjon.
Det er mye spennende i vente!