La technologie Voice AI est plus avancée que vous ne le pensez

Partager sur Facebook

Partager sur Twitter

Partager sur Linkedin

AccueilPod

Ivan Bandura via Unsplash

Les systèmes capables de gérer des tâches répétitives ont soutenu les économies mondiales pendant des générations. Mais des systèmes capables de gérer les conversations et les interactions ? Ceux-ci ont semblé impossibles, en raison de la complexité de la parole humaine. Tous ceux d'entre nous qui utilisent régulièrement Alexa ou Siri peuvent témoigner des lacunes de l'apprentissage automatique dans la gestion des messages humains. La personne moyenne doit encore interagir avec la prochaine génération d'outils d'IA vocale, mais ce dont cette technologie est capable a le potentiel de changer le monde tel que nous le connaissons.

Ce qui suit est une discussion sur trois technologies innovantes qui accélèrent le rythme des progrès dans ce secteur.

IA conversationnelle pour la commande

Les experts en IA vocale ont priorisé la technologie qui peut alléger les tâches subalternes, libérant les humains pour qu'ils s'engagent dans des efforts créatifs à fort impact. Les commandes au volant ont été identifiées très tôt par les développeurs comme un domaine dans lequel l'IA conversationnelle pourrait avoir un impact, et une entreprise semble avoir déchiffré le code.

Créer un système d'IA conversationnel capable de gérer les commandes de restaurant au volant peut sembler simple : chargez le menu, utilisez l'IA basée sur le chat, et vous l'avez fait. Les solutions réelles ne sont pas si faciles. En fait, créer un système qui fonctionne dans un environnement extérieur - gérant les bruits des voitures, la circulation, d'autres haut-parleurs - et un système doté d'une reconnaissance vocale suffisamment sophistiquée pour déchiffrer plusieurs accents, genres et âges, présente d'immenses défis.

Les co-fondateurs de

Salut Auto

, Roy Baharav et Eyal Shapira, ont tous deux une formation dans les systèmes d'IA pour l'audio : Baharav dans les systèmes d'IA complexes chez Google et Shapira dans l'interfaçage NLP et chat.

Baharav décrit les difficultés de faire fonctionner un système comme celui-ci : « La gestion de la parole en général, pour les humains, est difficile. Vous parlez à votre téléphone et il vous comprend - c'est un problème complètement différent de la compréhension de la parole dans un environnement extérieur. Dans un service au volant, les gens utilisent des modèles de discours uniques. Les gens sont indécis, ils changent beaucoup d'avis.

PLUS POUR VOUS

Naviguer dans la religion, la foi et la créativité à l'ère de l'IA

Qualcomm offre contre Magna pour Veoneer

15 leaders en éthique de l'IA montrant au monde la voie de l'avenir

Co-fondateurs de Hi Auto, Roy Baharav et Eyal Shapira

SalutAuto

Ce dernier problème illustre ce qu'ils appellent la conversation à plusieurs tours, ou le va-et-vient que nous, les humains, faisons sans effort. Après des années de pratique, de formation de modèles et de raffinement, Hi Auto a maintenant installé ses systèmes d'IA conversationnelle dans des drive-in à travers le pays et constate un niveau de précision de 90 %.

Shapira prévoit : « Dans trois ans, nous verrons probablement jusqu'à 40 000 restaurants utilisant l'IA conversationnelle. Cela va devenir une solution grand public.

"L'IA peut résoudre deux des problèmes critiques dans les restaurants à service rapide", commente Joe Jensen, vice-président d'Intel Corporation, "La précision des commandes qui va directement à la satisfaction du consommateur, puis la précision des commandes affecte également les coûts de personnel en réduisant ce temps supplémentaire le personnel dépense.

Cloud de conversation pour les machines intelligentes

Une deuxième innovation révolutionnaire dans le monde de l'IA conversationnelle utilise une technique qui transforme le langage humain en entrée.

Le PDG de

IA de Whitehead

, Diwank Tomer, illustre les défis historiques rencontrés par l'IA conversationnelle : « Il s'avère que, lorsque nous parlons, écrivons ou transmettons quoi que ce soit en langage humain, nous dépendons beaucoup d'informations contextuelles. Ce ne sont pas seulement des faits généraux sur le monde, mais des choses comme ce que je ressens ou à quel point quelque chose est bien défini.

« Ceux-ci sont évidents et transparents pour nous, mais très difficiles à réaliser pour l'IA. C'est pourquoi les blagues sont si difficiles à comprendre pour l'IA. C'est typiquement quelque chose de ridicule ou d'impossible, encadré d'une manière qui semble différente. Pour les humains, c'est évident. Pour l'IA, pas tellement. L'IA n'interprète les choses que littéralement.

Alors, comment un système incapable d'interpréter les nuances, les émotions ou de faire des inférences communique-t-il de manière adéquate avec les humains ? De la même manière qu'un locuteur non natif comprend initialement une nouvelle langue : en utilisant le contexte.

PDG, Diwank Tomer

IA de Whitehead

L'IA sensible au contexte construit des modèles qui peuvent utiliser des informations supplémentaires, au-delà de l'identité du locuteur ou d'autres faits. Les chatbots sont un domaine qui fait intrinsèquement défaut et pourrait bénéficier de cette technologie. Par exemple, si un chatbot pouvait glaner des informations contextuelles à partir du profil d'un utilisateur, des interactions précédentes et d'autres points de données, qui pourraient être utilisées pour formuler des réponses très intelligentes.

Tomer le décrit ainsi : « Nous construisons une infrastructure pour manipuler le langage naturel. Quelque chose de nouveau que nous avons construit est l'API chit chat - lorsque vous dites quelque chose et que cela ne peut pas être compris, Alexa répondra par "Je suis désolé, je ne peux pas comprendre cela." Il est désormais possible de saisir ou de répondre avec des réponses pleines d'esprit.

Tomer aborde l'avenir de ces technologies avec de grands espoirs : « Comprendre la conversation est puissant. Imaginez avoir des conversations avec n'importe quel ordinateur : si vous êtes coincé dans un ascenseur, vous pourriez crier et il appellerait à l'aide. Nos sens sont étendus grâce à la technologie.

Automatisation des processus de données

L'audio n'est qu'une forme de données non structurées. Lorsqu'ils sont collectés, évalués et interprétés, les résultats des modèles et des tendances peuvent être utilisés pour prendre des décisions stratégiques ou fournir des commentaires précieux.

super.IA

a été fondée par Brad Cordova. L'entreprise utilise l'IA pour automatiser le traitement des données non structurées. L'automatisation des processus de données, ou DPA, peut être utilisée pour automatiser les tâches répétitives qui traitent des données non structurées, y compris les fichiers audio et vidéo.

Par exemple, dans une grande entreprise éducative, les enfants utilisent un site Web pour lire des phrases à haute voix. super.AI a utilisé une application d'automatisation de processus pour voir combien d'erreurs un enfant a commises. Ce processus d'automatisation a une plus grande précision et un temps de réponse plus rapide que lorsqu'il est effectué par des humains, permettant une meilleure rétroaction pour un apprentissage amélioré.

Un autre exemple concerne les informations personnelles (IP), qui sont un sujet de préoccupation majeur dans le monde soucieux de la confidentialité d'aujourd'hui, en particulier en ce qui concerne l'IA. super.AI dispose d'un système de réduction audio grâce auquel il peut supprimer le PI de l'audio, y compris le nom, l'adresse et les numéros de sécurité sociale. Il peut également supprimer le matériel protégé par des droits d'auteur de segments audio ou vidéo, garantissant ainsi la conformité au RGPD ou au CCPA.

Fondateur, Brad Cordova

super.IA

Il est clair que les qualités de soutien de super.AI sont précieuses, mais lorsqu'il s'agit de personnes qui font actuellement tout, de l'assurance qualité sur les listes de produits du site Web à la prise de notes lors d'une réunion, la question est la suivante : allons-nous trop loin pour remplacer humains?

Cordova dirait non : « Les humains et les machines sont orthogonaux. Si vous voyez les meilleurs joueurs d'échecs : ce ne sont pas des humains ou des machines, ce sont des humains et des machines qui travaillent ensemble. Nous savons intuitivement en tant qu'humains pourquoi nous sommes mis sur cette terre. Vous vous sentez bien lorsque vous parlez avec les gens, ressentez de l'empathie et effectuez des tâches créatives.

« Il y a beaucoup de tâches où vous ne vous sentez pas bien : des tâches que les humains ne devraient pas faire. Nous voulons que les humains soient plus humains. Il ne s'agit pas de prendre le travail des humains, il s'agit de permettre aux humains d'opérer là où nous sommes les meilleurs et où les machines ne le sont pas.

Voice AI affrète un territoire sans précédent et se développe à un rythme qui transformera inévitablement les marchés. Les taux d'adoption de ce type de technologie peuvent changer la plupart des industries telles que nous les connaissons actuellement. Plus l'IA est intégrée, plus les humains peuvent en bénéficier. Comme Cordova le déclare succinctement, « l'IA est la prochaine et peut-être la dernière technologie que nous développerons en tant qu'humains ». La capacité de l'IA à assumer de nouveaux rôles dans notre société a le pouvoir de permettre aux humains d'être plus humains. Et c'est le meilleur de tous les résultats possibles.