NotebookLM – Når dokumentet snakker med deg

Med NotebookLM kan du lage en podkast av dokumenter på hundrevis av sider. Chatboten kan brukes til å oppsummere rapporter, NOU-er og studier.

NotebookLM

KI er en type digital teknologi. Språkmodeller er en type KI, og språkmodeller jobber med språk.

Det tok ikke lang tid før noen skjønte at språkmodeller kunne gjøre det mulig å snakke med mer enn selve språkmodellen.

Her kommer chatboten NotebookLM inn i bildet.

Skroll ned for å høre podkasten den har laget av en offentlig utredning på 161 sider.

Hva skjer når språkmodeller får tilgang til dokumenter?

NotebookLM lager podkast av en NOU

Det finnes en rekke oppstartsbedrifter som har en slik snakke-med-dokumentet-tjeneste som forretningside.

I juli i 2023 begynte Google også å snuse på denne måten å bruke språkmodeller i tjenesten NotebookLM.1 Introducing NotebookLM – Google

Bruk NotebookLM

Du får tilgang til tjenesten her: NotebookLM
Du kan logge inn med Google-kontoen din.

De har flikket og pusset på den, og nå for noen dager siden annonserte de at tjenesten hadde tatt enda et steg videre. Den er nå en del av tilleggstjenestene i Google Workspace, også for Education.

Hvis du for eksempel laster opp NOU-en «En mer praktisk skole», kan du nå

  • få sammendrag av hele eller deler av utredningen
  • lage en tidslinje for ulike hendelser
  • spørre språkmodellen om det du måtte lure på knyttet til innholdet i den
NotebookLM - Opplasting av NOU, en mer praktisk skole av Regjeringen
Skjermbilde: NOU-en «En mer praktisk skole» behandles av NotebookLM.

Du får også forslag til spørsmål du kan stille og du kan på toppen av det hele få NotebookLM til å lage en +/- 10 minutters podcast (på engelsk).

Det er to personer som snakker om innholdet i det du har lastet opp – altså en podcast om «En mer praktisk skole».

Du kan lagre alle de ulike notatene du gjør i en notatbok knyttet til dokumentet, og notatene inneholder henvisninger til de aktuelle stedene i dokumentet.

Det er også mulig å laste opp mange ulike dokumenter til en notatbok, og du kan velge hvilke(t) av dokumentene språkmodellen til en hver tid skal jobbe med.

Veiledning når man laster opp dokument i NotebookLM
Skjermbilde: Slik ser det ut når du lager din første notatbok.

Dokumentet snakker med deg

Alt vel, og egentlig ikke noe nytt.

Dette har andre også gjort tidligere, bortsett fra at podcasten NotebookLM kan lage er skummelt god. Den har høy WOW-faktor, hvis du vil vise noen hva KI kan gjøre.

Det kan bare lage samtaler på engelsk, men gjerne av norske tekster og resultatet er slett ikke dårlig. Her er det i praksis ikke bare du som kan snakke med dokumentet. Dokumentet kan snakke med deg!

Hør podkasten om NOU-en «En mer praktisk skole»:2 En mer praktisk skole (NOU / Regjeringen)

Dette skiller løsningen fra andre

Dette er som sagt ikke noe nytt. Det finnes et hav av andre liknende tjenester.

Det som skiller Google sin løsning fra de andre er at Google kjører tjenesten på sin egen språkmodell, Gemini 1.5 Pro.

Gemini 1.5 Pro kan noe ingen andre kan (enda). Den har et tokens-vindu på 2 millioner tokens.

Det betyr i praksis at den ikke trenger RAG, altså søke etter deler av teksten som den legger med i ledeteksten.

Gemini kan ha hele teksten i ledeteksten, slik at alle spørsmål eller ting du vil gjøre med teksten alltid vil ha all tekst tilgjengelig.

Og bare for å gi deg en ide om hva dette betyr. «En mer praktisk skole» er 236 157 tokens, så Gemini kan jobbe med hele utredningen når du spør om noe.

OpenAI sin gpt-4o-modell har bare 128 000 tokens.3 OpenAI

Det vil si at den kan lese halvparten av NOU-en, om du vil at gpt-4o skal gjøre noe med teksten.

Google Gemini har hele utredningen tilgjengelig hele tiden.

En stor hukommelse i praksis

Det betyr at NotebookLM kan vurdere all tekst i «En mer praktisk skole» når den skal svare på spørsmål, lage sammendrag, konstruere tidslinjer eller lage podcast.

Da blir svar den lager mye bedre, fordi språkmodellen har mer kontekst som gir et bedre svar.

Skal gpt-4o svare på spørsmål fra utredningen klarer den ikke ha mer kontekst enn den teksten som blir lagt med, og da kommer noe til å mangle.

Så hvis du trenger er sammendrag av alle dokumenter i en organisasjon eller jobbe med mange pensumbøker på en gang, så finnes det bare en løsning som kan gjøre det – og den er foreløpig Google sin.

Andre løsninger bare later som om de vet hva som står i dokumentene ved å la en RAG hente det den regner med er de viktige delene fra dokumentet.

NotebookLM ser på all tekst samtidig på en gang når den svarer. Derfor er kvaliteten på svarene i NotebookLM i en annen liga enn andre RAG-tjenester.

I diskusjonen om hvilken KI som er best kan OpenAI godt vise frem chain of though-superkraften til o1, men Google har nå nettopp vist oss hvilken superkraft det er med et gigantisk tokens-vindu.

Det er noen begrensninger

Akkurat nå kan du bare laste opp PDF- og txt-filer på max 500 000 ord (som er rundt 850 000 tokens), fordi det er dyrt å la den jobbe med maks tokens og fordi det må være plass til andre dokumenter også (regner jeg med).

Jeg tror ikke det er så lenge til du også kan laste opp lyd, bilde og film også, fordi Gemini 1.5 Pro er en multimodal modell og med sine 2 millioner tokens kan den «se» en film på to timer når den svarer deg.

Jeg har prøvd det i Google sitt AI Studio, og det er akkurat så imponerende som du tror det er!4 Google AI Studio

Skroll til toppen