Med Mjoll inn i framtiden
At Bergen er Norges teknologihovedstad for AV-bransjen kan det være lite tvil om. Flere selskaper har blitt svært anerkjent internasjonalt, og et av de nyeste tilskuddet er Mjoll, med deres programvare Mimir. Kort fortalt er det skybasert lagring, logging, autotranskribering, ansikts- og objektgjenkjenning, oversettelse med mer. De er kanskje ikke først ute med denne teknologien, men brukerne vi har snakket med skryter av hvor fleksibelt det er. Fra lansering våren 2019 har Mjoll knyttet til seg stadig flere kunder, og det har vært fokus på dialog med kundene for å få oversikt over hva som er viktig og hvilke funksjoner de vil benytte.
Steinar Søreide er CTO hos Mjoll, og kommer fra 18 år i Vizrt, også det et fremoverlent teknologiselskap fra vestlandsbyen. Han er en av grunnleggerne i Mjoll, og målet var å skape et verktøy for journalister og innholdsprodusenter, som både forenklet og forminsket arbeidsprosessen, samtidig som det tok i bruk eksisterende teknologi. - Mjoll er ikke et AI-selskap, men vi gjør det mulig å benytte flere forskjellige typer teknologi i samarbeid med Mimir. Forklarer Søreide. Mimir er altså først og fremst et arbedisflytedeskap der brukerne kan velge hvilke tredjepartsporgramvare som skal benyttes for å løse deres oppgaver. Det har en videolagringsløsning som kjører på amazon gir journalister og redigerere tilgang på kognitive tjenester som gjør at man kan analysere, sortere og lagre video effektivt.
En rekke forskjellige tjenester og bruksområder
Automatisk transkribering av tale i film er hett tema. Nytt det siste året er at skandinavisk begynner å bli godt nok til at det kan brukes. Det er fortsatt litt delte meninger om hva som ligger i begrepet "godt nok", men det er utvilsomt at teknolgien fungere, og at den har bruksfunksjoner. Blant disse er automatisk språkanalyse som bruker den transkriberte teksten til å kategorisere teksten, og klassifisere den som sport, nyhet, underholdning, politikk og videre. En annen form for analyse får de i samarbeide med det finske selskapet Valossa som har laget en programvare for sportsanalyse. Ved å kjøre innhold gjennom deres system kan man få ut tidskode på høydepunkter som scoringer, gule kort, frispark og liknende. - Denne typen spesifikk analyse er ekstra spennende, og etterhvert som teknologien utvikler seg vil vi se mer og mer av dette, forteller Søreide. Han legger til at det allerede finnes mye statistikk fra sport tilgjengelig som er logget manuelt, men det kan også integreres i systemet. - Hovedmålet er å gjøre innhold søkbart og forenkle bruken av det i forbindelse med redigering, og legge til rette for at kunden får brukt innholdet på den måten som er mest hensiktsmessig.
Ansiktsgjenkjenning og kunstig intelligens
De fleste som jobber med med kunstig intelligens og maskinlæring har sin egen teknologi. Det Mjoll gjør med Mimir er å implementer tjenester fra de store leverandører av tjenester, slik at brukerne av Mimir kan bytte tredjepartsleverandører av tjenester, samtidig som de beholder Mimirs funksjonalitet på alle områder. Det gjør det enkelt å endre om man er misfornøyd med en funksjon, eller finner en leverandør som leverer samme tjeneste til lavere pris. - De store selskapene som Google, Microsoft, IBM og flere ligger allerede langt foran, og har mye mer ressurser for utvikling og oppgradering av sine tjenester. Derfor er det mest hensiktsmessig å benytte disse, så kunde får best brukeropplevelse med Mimir, forklarer Søreide. Han legger til at man kan benytte forskjellige tjenester på forskjellige språk også, så man kan sette sammen den løsningen som er best helt ned til detaljnivå. Mimir håndterer også alt av prising og betaling, så fakturaen reflekter hvilke tredjepartsleverandører man har valgt, og alt er tilgjengelig gjennom en intuitiv web-frontend. Det finnes også plug-ins for de fleste anerkjente redigeringssystemer, slik at Mimir er mest mulig kompatibelt med det som brukes i markedet.
Mengder av metadata
En ting som Mimir bidrar til er en mengde metadata, som kan brukes på flere forskjellige måter. En hovedfordel er likevel søk, ente i ferskt innhold eller i arkiv. Sammen med tidsinformasjon om alt innhold, kan man gjøre veldig spisse søk. En ting man kan gjøre er å kombinere ansiktsgjenkjenning og transkribert tekst kan man søke opp en gitt person, f.eks. Hillary Clinton, som snakker om et spesifikt tema, f.eks. Donald Trump. Avhengig av hvor mye innhold som er lastet opp vil jo dette kunne gi mange søk, men det er likevel så spesifikt at det er allerede mye enklere å finne akkurat det man letere etter, fremfor å se igjennom en hel mengde med video for å finne akkurat det man er ute etter. Legger man til flere søkeralternativer, som tidskoder, går dete likevel veldig raskt. Man kan også søke spesifikt på klipp der to personer er i bildet samtidig. Det blir nesten som google for ditt eget innlastede innhold.
Det er ikke først og fremst en arkivløsning som konkurrerer med eksisterende MAM-løsninger (Media Asset Manager), rett og slett for at det krever mye for etablerte bedrifter å skifte system for dette, og er en lang prosess. Men rent teknisk kan man gjør det. Mimir er først og fremst et system for behandling av nytt innhold, og betalingsløsningen er brukerbasert. Man betaler for antall tilganger på månedlig basis.
Logging av råmateriale
I dag bruker folk mye tid og penger på å logge materiale fra opptak manuelt. Dette er tidkrevende arbeid, som binder opp ansatte som må gjøre det manuelt. - Et lengre intervju vil kanskje koste 20.000 til 30.000 å få logget og transkribert hos en ekstern leverandør, bruker man Mimir kan det gjøres for en hundredel av prisen. Søreide fortsetter med å påpeke at dette gjøres automatisk med tilsvarende kvalitet, der han tar høyde for at manuell transkribering er hastverksarbeid, der feilstavelser og liknende forekommer hyppig. Mimir gir deg tilsvarende god oversikt over innhold, og er i tillegg søkbart, slik at du kan søke på ord og setninger og få klippet ferdig til publisering umiddelbart. Manuelt er dette en operasjon som kan ta litt tid, og litt til.
Korrigering av transkribert tekst handler egentlig om å lære systemet å kjenne igjen ord. Dette er ikke så avansert, og se i de fleste skriveprogrammer, men det er også et felt Mjoll har fokus på, at brukerne skal ha mulighet til å lære opp systemet til å forstå språket som brukes. - Å legge til et nytt ord i en ordliste er ikke veldig komplisert, men i Norge har vi mye forskjellige dialekter og for programvaren er det litt utfordrende å forstå de akustiske forskjellene i ordene det hører. Søreide legger til at det ikke utelukkende handler om dialekter, men at språket er i forandring, det dukker opp nye ord stadig. Dessuten er egennavn en utfordring, og det er noen de jobber aktivt med slik at de blir bedre og bedre hele tiden. De største utfordringene per i dag er støy i bakgrunn av intervjuer. I tillegg skjer det ofte at folk snakker i munnen på hverandre, og det er ikke like enkelt for systemet å håndtere. - Når det er klar tale, og få forstyrrelser er kvaliteten på transkriberingen veldig god, får vi forklart av Søreide. Systemet gir en score tilbake når transkriberingen er ferdig. Ved lav score må man manuelt gå inn og sjekke hva som har blitt sagt, og rette på det i teksten, men s ved høy score så er stort sett teksten så god den kan bli, og søkbare for brukerne i ettertid. - Lav score er ikke nødvendigvis negativt, for det er da vi kan lære programvaren hvor de skal legge ekstra fokus, og bli enda bedre i fremtiden.
Når ting først er transkribert er det mulig å gjøre oversetting. Så innhold fra utlandet kan transkriberes og oversettes, slik at det er søkbart, og ikke minst forståelig, for nordmenn. - Med oversetting mister man noe av timingen, men som journalist vil man kunne søke etter et tema og finne det relevante klippet. Vi gjør en interpolering som gjør det omtrent nøyaktig, og det er lett å snevre ned klippet man vil bruke, før man sender det til en oversetter som sørger for at det blir helt riktig. Da sparer man penger, siden man kan slippe å sende 30 minutter, men i stedet sende bare 2 minutter for oversettelse, siden man vet omtrent hvilken del av klippet man vil bruke. - Vi genererer samtidig en subtitle, men den er ikke god nok til å brukes på TV. foreløpig. Det ligge ri den nære fremtiden vil jeg tro, sier Søreide. Han legger til at det gjelder først og fremst i Norge. Kunder i engelsktalende land benytter muligheten til auto-teksting, men det handler mye om at teknologien har kommet lengre for de internasjonale språkene. For sikkerhets skyld er det vanlig å legge en disclaimer i starten som sier at klippet er oversatt maskinelt.
Arkiv i fremtiden
For overføring av eksisterende arkiv er det først og fremst et kostnadsspørsmål. Det koster et par dollar per time med materiale å transkribere, og har man et veldig stort arkiv er det fornuftig å se an når det er hensiktsmessig å gjøre endringen, og kanskje vente til kvaliteten er så bra man ønsker at den skal være for sitt arkiv. For store mediebedrifter med arkivinnhold langt tilbake i tid kan det hende at det er lurt å starte med det nyeste, og gradvis overføre eksisterende innhold til ny plattform etterhvert som teknologien blir bedre og kostnadene synker. - Vi diskuterer disse løsningene med kunder som har MAM-systemer allerede og tilpasser oss hvordan de ønsker å gjøre gammelt arkivmateriale tilgjengelig, forklarer Søreide. Selv om Mimir er en skytjeneste er det ikke nødvendig at arkivet må lastes opp i høy kvalitet. For å spare på brukt skykapasitet kan man laste opp proxy-versjon av filene, og gi kunden samme funksjoner når det gjelder transkribering, ansiktsgjenkjenning og mer. For kunder som har et arkivsystem kan Mimir være et tillegg for søk, mens for de som ønsker å opprette et MAM-system kan de fylle den rolle, selv om det ikke er primært det programvaren er laget for.
Back-up i skyen er den sikreste og billigste måte å lagre på i dag, i tillegg til overføring til redigeringssystemer, som gjør at veien fra opptak til publisering blir kort og smidig.Live-overføring og transkribering er fullt mulig, no som gjør at en journalist i felten kan sende over materiale med sendere fra LiveU eller AviWest for eksempel, slik at redigererne kan søke, finne og publisere akkurat det de trenger ganske umiddelbart. Foreløpig er dette en funksjon som tilbys de som trenger det, mens hovedfokus for Mjoll er å tilby tjenesten til de som laster opp manuelt og lar innholdet behandles av Mimir automatisk. - Live-funksjonen er etterspurt og vi legger til rette for de som trenger det.
Mjoll er ikke helt alene om denne løsningen, men det er foreløpig ikke mer enn en liten håndfull selskaper som jobber med slike løsninger. Det gir dem håp om å være tidlig ute i markedet, og forhåpentligvis kunne feste en markedsposisjon som gjør at de leverer løsninger for fremtiden.
Det er stort fokus på implementering av kunstig intelligens i dag, og det er mange selskaper som jobber med det på en eller annen måte. Mjoll ser på hvordan de best kan gi sine kunder nytte av teknologien, som bare kommer til å blir mer og mer avansert. - Vår styrke er kjennskap til mediebransjen og hvordan arbeidsflytsystemene der fungerer, og det at vi kan gjøre integrasjoner mellom kunstig intelligens og mediebehandlingssystemene som brukes i dag. Det er vår nisje og der er det ikke så veldig mange andre å konkurrere med.
IMG er storfornøyd kunde
Mjolls uttalte målgruppe er de som jobber med film og TV-produksjon, og i økende grad gjelder jo dette også tradisjonelle trykte medier, som ser behovet for å publisere levende bilder gjennom sine nettaviser. Det å gjøre kognitive tjenester tilgjengelig for brukere er Mimirs hovedagenda. At de også kan bistå med mediehåndtering og skylagring er egentlig bare noe de gjør i tillegg, blant mange andre i bransjen. Men kombinasjonen mener de er sterk, særlig siden de legger opp til at brukerne kan velge hvilke tjenesteleverandører de vil benytte.
IMG Norway er en av kundene til Mjoll, og de sier seg strålende fornøyd med løsningen. De produserer 3600 timer i året, primært for Rikstoto, der de står for hele produksjonen fra kamera til kringkasting. Trond Larsen i IMG forklarer hvorfor de benytter Mimir i produksjon av sine sendinger som går ut til hele verden. Innholdet som kommer inn behandles i to regirom. Et som går til det norske markedet, og et som går ut internasjonalt, med engelskspråklig lyd. - Det er produksjon syv dager i uka, året rundt. Det eneste unntaket er første juledag. Da er det ikke trav eller galopp, forklarer Larsen.
Internasjonalt er IMG involvert i flere forskjellige sports- og idrettsarrangementer, og det kommer mer til Norge etterhvert. - Blant annet Bislett Games er en produksjon vi er involvert i. Alt innhold som blir produsert lagres i IMGs mediebank, men det produseres også mye annet innhold. Det kan være intervjuer, analyser og stemningsrapporter fra de forskjellige banene, og dette er materiale som brukes litt forskjellig i forbindelse med sendingen. Til reportasjer, portretter eller magasininnhold og promotering. - Utfordringer er hvordan dette ekstra innholdet skal lagres. Man kan ha det lokalt på disker, eller man kan ha det i skyen. Lagres det lokalt er det mindre tilgjengelig for andre, mens om man laster det opp i skyen kan det gi innhold til veldig mange flere i systemet.
Det IMG er mest fornøyd med i samarbeidet med Mjoll er hvordan de er innstilt på å høre på hvordan kundene ønsker å bruke systemet. - Vi kan bruke systemet til akkurat det vi trenger, og er ikke avhengig av å også få med en rekke ekstrafunksjoner vi strengt tatt ikke trenger. Og kostnaden blir tilpasset det vi tar ut av Mimir, og ikke mer. Det som er den største fordelen ifølge Larsen er hvordan materialet enkelt kan sorteres og lagres, etter hva man ønsker å bruke, mens det som er overflødig raskt kan skrotes. - Da slipper man å lagre timesvis med ubrukelig innhold, selv om man er forsiktig med å ikke klippe vekk for mye.
Man kan sitte der man er, enten hjemme eller på en arena, og ha full kontroll over det man har produsert. Når alt måles mot databasen så slipper IMG å bruke arbeidskraft på å tagge innhold og personer, siden Mimir gjør den jobben automatisk. - Utover å gi filen et navn legger vi ikke til metadata lenger. Det ordner programmet selv. Larsen understreker hvor mange arbeidstimer de spares for hver uke ved å bruke Mimir.Selv om transkriberingen ikke er perfekt, så er den god nok og mer en det for det behovet IMG har. Innholdet er søkbart, og arbeidsflyten blir betydelig enklere. - I øyeblikket holder vi på med et prosjekt der vi mastrer på svensk, norsk og dansk. Det blir en utfordring, men der er Mjoll veldig hjelpsomme med å sett opp en løsning som gir oss mulighet til å gjøre dette slik at vi kan bruke det kommersielt. Larsen er veldig fornøyd med at man kan kombinere andres teknologi med løsningen fra Mjoll. - Det gjør at vi får det produktet vi trenger for å kunne levere det produktet vi vet våre kunder vil ha. Larsen forklarer at de på sikt ønsker en løsning der de får en grovklipp fra journalisten, slik at redigererne på kontoret bruker minst mulig tid på å produsere ferdig innhold, bare ved å finjustere det som er oversendt.
Den store fordel for IMG er at de tar vare på akkurat det de trenger, i tillegg til litt ekstra. Det er bare det som lagres, men resten blir slettet. - Det gir en besparelse i forhold til lagring som vi merker umiddelbart. Vi trenger mindre plass for lagring, og mindre plass gir mindre utgifter, forklarer Larsen. Det er kanskje en av de største fordelene for akkurat IMG.
Mimir er så fleksibelt at de kan få innpass i veldig mange forskjellige typer produksjonssystemer, og det er nett det som er hensikten deres. De er fortsatt i startgropen, men at de har en teknologi som kommer til å gjøre livet lettere for innholdsprodusenter, journalister og mediehus i tiden fremover er utvilsomt. Det blir spennende og se hvor bra dette kan bli.