di Gianni Rusconi
Una fotografia inedita, unica o quasi nel suo genere in Italia, sulla diffusione degli smart speaker. La ricerca realizzata da Celi, società di proprietà al 100% di H-Farm (dal 2017) e attiva da diversi anni sul fronte delle tecnologie di riconoscimento vocale per il mondo automotive, in collaborazione con l'istituto di ricerca Kkienn ci dice in altre parole come e quanto sia sviluppato il rapporto fra gli italiani e i dispositivi intelligenti che sanno riconoscere i comandi vocali impartiti dall'utente e agire di conseguenza. Il dato forse più importante che emerge dall'indagine, svolta nella seconda metà di giugno e che il Sole24ore ha avuto modo di leggere in anteprima, è il seguente: il 13% del panel online di 700 consumatori preso a campione ha in casa uno smart speaker. Una penetrazione già significativa, dicono gli autori dello studio,
sullo stesso livello dei gadget indossabili e superiore a quello delle bici elettriche, per quanto ancora molto lontana dalle percentuali di adozione di smartphone e personal computer (rispettivamente al 95% e all'88%) e di altri prodotti smart come le Tv (al 53%) o le cuffie wireless (al 32%). Ben delineato è il profilo dell'utente medio di questi prodotti, e quindi persone fra i 25-45 anni, benestanti, in molti casi con in tasca una laurea e dipendenti full time presso aziende medio grandi.
Le applicazioni sono “basic”
Chi possiede un dispositivo “parlante” lo utilizza una o più volte al giorno nel 70% dei casi ed è anche diffuso in modo rilevante l'uso cross-device degli assistenti vocali, con il 79% del campione che interagisce con essi direttamente tramite smartphone. Per il momento, ed è una tendenza nota, le applicazioni appoggiate ai maggiordomi virtuali sono però molto semplici: in testa alle richieste impartite a Siri, Alexa o Google Assistant svettano la riproduzione di brani musicali (nel 64% dei casi) e le previsioni meteo (54%) e sono altrettanto gettonate l'ascolto delle Internet radio e la notifica dei promemoria. Il controllo degli altri dispositivi connessi presenti in casa è invece una prerogativa solo del 26% degli utenti mentre solo il 12% del campione si affida agli assistenti vocali per fare acquisti online. Ciò che emerge dall'indagine è in definitiva un quadro in cui si evidenzia grande curiosità per questa tecnologia, la certezza di ripeterne l'acquisto (lo conferma un terzo degli utenti), un livello di soddisfazione buono e la consapevolezza di una qualità dello strumento che può migliorare ulteriormente.
Apple pioniera
“Oggi siamo su un crinale, pronti ad attraversare una frontiera: da una parte abbiamo i sistemi per la navigazione a menu con la voce, dall'altra la tecnologia in grado di soddisfare un bisogno. A fare da ponte fra questi due mondi ci sono strumenti, ormai consolidati e funzionanti, di text-to-speech e speech-to-text. La sfida da vincere è nota: arrivare a soluzioni con componenti di semantica integrata in grado di comprendere i comandi, contestualizzarli e interpretarne il significato per poter rispondere all'esigenza che esprimono”. L'analisi di Vittorio Di Tomaso, Presidente e Ceo di Celi, che abbiamo incontrato in sede di presentazione della ricerca, traccia una direzione ben precisa sui futuri sviluppi delle interazioni uomo-macchina attraverso la voce. Se le prime tracce di applicazione della tecnologia text-to-speech su un computer risalgono al 1984, con l'Apple Macintosh, l'accelerazione è arrivata in tempi più recenti, nel 2008, con i servizi di voice search sui device mobili, nel 2008 con Google, è proseguita con i comandi vocali di Siri per iPhone e iPad (nel 2011) per arrivare alle interazioni con gli apparecchi connessi introdotte nel 2014 da Amazon, con Alexa.
La verbalizzazione del pensiero il prossimo traguardo
Lo scenario di riferimento per analizzare l'impatto potenziale dell'intelligenza artificiale applicata agli assistenti virtuali, secondo Di Tomaso, è rappresentato da tre universi: i due miliardi di smartphone oggi dotati di tecnologie vocali (di questi circa un miliardo hanno a bordo Google Assistant, e quindi tutta la galassia di terminali Android, e 800 milioni Siri), le auto connesse (l'automobile è l'ambiente, dopo il telefono, dove i consumatori usano più spesso interfacce vocali) e i circa 200 milioni di smart speaker installati nelle case di tutto il mondo. Se l'industria automotive è partita prima nel fare proprio queste tecnologie, è emblematico come – a detta del manager di Celi – le grandi aziende tech abbiamo progressivamente accelerato per farne un punto di forza delle rispettive strategie di sviluppo.
“Language is the new interface”, ebbe a dire nel 2016 il numero uno di Microsoft, Satya Nadella, una dichiarazione di intenti che si riflette nelle parole pronunciate dal noto futurista Ray Kurzwei in occasione della Ted Conference 2018, secondo cui il linguaggio naturale è il “Santo Graal” dell'intelligenza artificiale. Gli sforzi delle aziende che operano in questo settore convergono non a caso nel costruire sistemi di voice recognition che possano rendere l'interazione vocale riconoscibile e personalizzabile. L'orizzonte di questa tecnologia, come conferma Di Tomaso, è insomma quello di affidare alla macchina la verbalizzazione del pensiero, e per questo si tenderà a sviluppare e realizzare dispositivi in grado di equivalere in tutto e per tutto (o quasi) il comportamento del cervello umano. A quando questo ulteriore strappo nel processo di rivoluzione segnato dall'AI? Non troppo lontano. Nel 2022, secondo le ultime predizioni della società di ricerca Idc, il 30% delle imprese di classe enterprise su scala mondiale utilizzerà tecnologie vocali conversazionali per attività di customer engagement. Ed è una percentuale destinata a crescere esponenzialmente.
uno smart speaker