Telefonia VoIP e intelligenza artificiale
NPL (Natural Language Processing), TTS (Text To Speech) e ASR (Automatic Speech Recognition)
applicati al nostro prodotto per i medici Doctorin.
Doctorin migliora il lavoro del medico e/o dello studio medico e consente ai pazienti
di poter utilizzarne i servizi (informazioni, richieste ricette mediche e prenotazioni visite)
24 ore al giorno, 7 giorni su sette.
Incontro video tra Sabatino Vacchiano e Davide Cavezza
Video evento 20-21 gennaio 2023
Questo è il settimo, degli otto video che compongono l'intervista completa, in cui Sabatino Vacchiano e Davide Cavezza
parlano dei task fondamentali che compongono i prodotti Beevoip, tra i quali il prodotto per i Medici Doctorin.
Si analizzano NPL (Natural Language Processing), TTS (Text To Speech) e ASR (Automatic Speech Recognition) che
permettotto a Doctorin di poter far fare una prenotazione di visita al medico di base con una semplice telefonata
senza dover per forza dovere utilizzare una app per appuntamenti (medici).
Testo preso dalla traccia audio del video tramite il nostro servizio TRANSCRIBER.
S) Come in beevoip avete utilizzato questa tecnologia, per fare cosa per arrivare a cosa.
D) In BeeVoip siamo specializzati in soluzioni legate al Voip e alla telefonia quindi ci siamo concentrati su task che siano
relativi alla comunicazione vocale con le persone, in particolari le tre task fondamentali sono il riconoscimento vocale,
NPL (Natural Language Processing) e il TTS (Text-To-Speech). Nel riconoscimento vocale noi adoperiamo tecniche di machine learning per
riconoscere le parole che vengono pronunciate. Il riconoscimento vocale in inglese ASR (Automatic Speech Recognition) consiste
nel trasformare stream audio in tempo reale in parole scritte in maniera tale che tali parole possono essere interpretate
come comandi dai nostri sistemi e possano scatenare delle operazioni. Per fare un esempio nel nostro sistema ad doctorin
delle prenotazioni dei pazienti presso gli studi medici un paziente può chiedere una prenotazione per una determinata data,
il nostro sistema come prima cosa deve riconoscere i comandi pronunciati dal cliente e utilizza un sistema di speech
recognition traducendo le parole in audio e in comandi. Nel natural language processing invece abbiamo una seconda fase
in cui questi comandi vengono interpretati e capiti. Vengono distinte per esempio le date e le ore per cui l'utente effettua
la prenotazione oppure si distinguono comandi di prenotazione da altri tipi di comandi come ad esempio richieste
informazioni e il natural language processing consiste proprio nel comprendere le parti del discorso e di scatenare una
certa reazione in un determinato modo a seconda di quello che si è detto.
S) Scusa se ti interrompo giusto per capire meglio quindi mi stai dicendo che il sistema capisce l'intenzione della
persona con cui si sta parlando, è così?
D) Si, su questa parte poi si concentrerà meglio il mio collega che si occupa direttamente di questa fase. Nella terza fase
invece di text-to-speech si ha l'opposto di quello che si è spiegato nel asr, ovvero gli output testuali dei comandi vengono
convertiti in una voce simile a quella umana per intonazione, per pronunciare le parole, per prosodia. Anche nella fase di
text-to-speech si hanno modelli come reti neurali che eseguono proprio questa traduzione da parole a voce sintetica che
sembra molto simile a una voce umana. Queste sono le applicazioni principali.
Clicca qui per l'articolo ed il video completi
NOTA: ricordiamo che i prodotti Transcriber, Doctorin e "Arianna"
(assistente virtuale del centralino telefonico) di BEEVOIP si basano su intelligenza artificiale.