In het weekend dat het EK Voetbal losbarst, is daar ook de wekelijkse column van John Vanderaart op pcactive.nl als mooie afleiding. Ook John is trouwens afgeleid en duikt onder de motorkap. En hier kun je nog eens duiken in Johns column van vorig weekend...

Laten we het weer eens over AI hebben… Thans ben ik bezig met spraak-naar-tekst in combinatie met het OpenAI-model Whisper. Dat is op zich niet zo spannend als je een kant-en-klaar audiobestand in één keer laat transcriberen (= omzetten van een audiobestand of geluidsopname naar een tekst). Wel spannend wordt het als je een lopend gesprek wilt verwerken tijdens dat lopende gesprek. Dat in SaaS-software, dus via de webbrowser. Een webpagina kan toegang krijgen tot de microfoon, dus ook dát is het niet. Het is ook niet al te ingewikkeld om het ‘lopende geluid’ in stukken op te knippen en die stukken ieder apart door Whisper heen te gooien. Alleen… Dat kan vreemde resultaten opleveren als de stukken op een verkeerd moment (= halverwege een voor het gesprek strategische zinsnede) worden afgeknipt. Kortom, je zult dus rekening moeten houden met het volume op zo’n moment. Weinig volume kun je uitleggen als stilte en dat is een mooi moment om te knippen. Maar wat is stilte? Het volumen van de achtergrondruis kan verschillen per locatie. Interessante kost, niet? Intussen ben ik diep onder de motorkap van de webbrowser terechtgekomen en ik moet oprecht constateren dat een moderne webbrowser meer een compleet besturingssysteem is, dan (zoals eertijds) een HTML-viewer die ook wat JavaScript kan laten draaien. Alleen… De documentatie die je daarbij (lees: diep onder de motorkap) zou moeten helpen, is op dit moment nog slechts mondjesmaat voorradig. Dat is enerzijds onhandig, maar anderzijds prikkelend. Want: “Nieuwe ontwikkelingen!”

AI