Telefonia VoIP e intelligenza artificiale

NPL (Natural Language Processing), TTS (Text To Speech) e ASR (Automatic Speech Recognition)
applicati al nostro prodotto per i medici Doctorin.
Doctorin migliora il lavoro del medico e/o dello studio medico e consente ai pazienti di poter utilizzarne i servizi (informazioni, richieste ricette mediche e prenotazioni visite) 24 ore al giorno, 7 giorni su sette.

Incontro video tra Sabatino Vacchiano e Davide Cavezza

Video evento 20-21 gennaio 2023

Questo è il settimo, degli otto video che compongono l'intervista completa, in cui Sabatino Vacchiano e Davide Cavezza parlano dei task fondamentali che compongono i prodotti Beevoip, tra i quali il prodotto per i Medici Doctorin. Si analizzano NPL (Natural Language Processing), TTS (Text To Speech) e ASR (Automatic Speech Recognition) che permettotto a Doctorin di poter far fare una prenotazione di visita al medico di base con una semplice telefonata senza dover per forza dovere utilizzare una app per appuntamenti (medici).

Testo preso dalla traccia audio del video tramite il nostro servizio TRANSCRIBER.

S) Come in beevoip avete utilizzato questa tecnologia, per fare cosa per arrivare a cosa.
D) In BeeVoip siamo specializzati in soluzioni legate al Voip e alla telefonia quindi ci siamo concentrati su task che siano relativi alla comunicazione vocale con le persone, in particolari le tre task fondamentali sono il riconoscimento vocale, NPL (Natural Language Processing) e il TTS (Text-To-Speech). Nel riconoscimento vocale noi adoperiamo tecniche di machine learning per riconoscere le parole che vengono pronunciate. Il riconoscimento vocale in inglese ASR (Automatic Speech Recognition) consiste nel trasformare stream audio in tempo reale in parole scritte in maniera tale che tali parole possono essere interpretate come comandi dai nostri sistemi e possano scatenare delle operazioni. Per fare un esempio nel nostro sistema ad doctorin delle prenotazioni dei pazienti presso gli studi medici un paziente può chiedere una prenotazione per una determinata data, il nostro sistema come prima cosa deve riconoscere i comandi pronunciati dal cliente e utilizza un sistema di speech recognition traducendo le parole in audio e in comandi. Nel natural language processing invece abbiamo una seconda fase in cui questi comandi vengono interpretati e capiti. Vengono distinte per esempio le date e le ore per cui l'utente effettua la prenotazione oppure si distinguono comandi di prenotazione da altri tipi di comandi come ad esempio richieste informazioni e il natural language processing consiste proprio nel comprendere le parti del discorso e di scatenare una certa reazione in un determinato modo a seconda di quello che si è detto.
S) Scusa se ti interrompo giusto per capire meglio quindi mi stai dicendo che il sistema capisce l'intenzione della persona con cui si sta parlando, è così?
D) Si, su questa parte poi si concentrerà meglio il mio collega che si occupa direttamente di questa fase. Nella terza fase invece di text-to-speech si ha l'opposto di quello che si è spiegato nel asr, ovvero gli output testuali dei comandi vengono convertiti in una voce simile a quella umana per intonazione, per pronunciare le parole, per prosodia. Anche nella fase di text-to-speech si hanno modelli come reti neurali che eseguono proprio questa traduzione da parole a voce sintetica che sembra molto simile a una voce umana. Queste sono le applicazioni principali.

Clicca qui per l'articolo ed il video completi

NOTA: ricordiamo che i prodotti Transcriber, Doctorin e "Arianna" (assistente virtuale del centralino telefonico) di BEEVOIP si basano su intelligenza artificiale.