Plutôt technologie vocale embarquée ou Cloud ?

Written by Aurélien Chapuzet

Aurélien dirige la création de contenu et les stratégies de marketing chez Vivoka.

Découvrir | Reconnaissance Vocale | Vedette

Le Picking vocal : une solution toujours efficace pour la logistique

Les Modèles de Langage et ChatGPT

Comment la voix améliore les wearables AR/VR ?

La technologie vocale embarquée, ou du moins le terme embarqué, vous sont peut-être familier. Là où le monde de la tech prône la connectivité pour ses nombreux avantages, les technologies vocales fonctionnant hors ligne, sans appels serveurs, sont également prisés pour de nombreuses raisons. Dans cet article, nous décomposons ce qu’est le vocal en embarqué, avec ses apports, ses secteurs et équipements mais aussi ses possibles alternatives et extensions. Souvent “Less is more”, l’embarqué en est la définition !

C’est quoi un système embarqué ?

Ce qu’on appelle “embarqué” dans le domaine des technologies vocales correspond à la définition plus large du terme. Il s’agit de systèmes basés sur du hardware (microprocesseurs ou microcontrôleurs par exemple), pensés pour des tâches spécifiques. Ils peuvent être considérés comme des systèmes indépendants ou bien des maillons d’un plus gros dispositif. Le mot “embarqué” fait écho à l’hébergement de la technologie, ici directement dans l’appareil.

Le principe de fonctionnement des systèmes embarqués

L’embarqué se différencie des technologies Cloud par son principe de fonctionnement. Dans ce cadre, l’ensemble des processus de calcul sont réalisés dans l’appareil “hôte”, en se basant sur les ressources technologiques à disposition. La complexité des systèmes embarqués, tant en termes de contraintes que de potentiel, est donc très variable. En effet, d’un simple microcontrôleur à un montage complexe de microprocesseurs et plusieurs périphériques, les possibilités sont bien différentes. Ces compositions varient évidemment selon la finalité prévue pour le système.

Un principe adapté à la technologie vocale embarquée

Les technologies vocales ne font pas faux bon à l’embarqué. À l’heure où le Cloud attire l’attention par ses capacités, l’embarqué existe et se développe tout autant. Dans ce domaine, nous retrouvons la majeure partie des technologies existantes : Les ASR, TTS, Wake-up Word, Traitement du langage, biométrie vocale etc… Toutes ces solutions sont cette fois développées sur des modèles beaucoup plus légers. Rappelez-vous, l’embarqué doit fonctionner sur les ressources que le système est en mesure de lui fournir. Cependant, ressources moindres ne signifient pas performances moindres. Avec l’attrait grandissant pour les technologies embarquées et notamment l’intégration du machine learning dans les smartphones et autres appareils mobiles, le monde de la recherche se penche autant sur l’optimisation des modèles de machine learning (pour diminuer les coûts d’entrainement, la taille des modèles et les temps d’inférence), que sur la précision de ceux-ci. La performance devient aussi importante que le résultat.

Pourquoi choisir la technologie vocale embarquée ?

L’embarqué est Private by design

Le principe de fonctionnement on-device que proposent la technologie vocale embarquée lui confère une caractéristique clé dans l’univers de la tech aujourd’hui : Privacy by Design. Qu’est-ce que cela signifie ? La notion de design fait écho à la conception. Les systèmes embarqués étant imaginés et construits sur le principe du traitement des processus en local, cela les rends naturellement immuables à la question des données privées. C’est simple : les données ne circulent pas, tout est traité en local, sans appel à des serveurs distants. Cette faculté est aujourd’hui très recherchée pour plusieurs raisons.

Tout d’abord, lorsque les produits et services sont proposés à des particuliers utilisateurs finaux, le traitement des données personnelles est d’autant plus sensible. Ces données personnelles sont à caractère discriminatif et du ressort de la vie privée des individus. Les technologies Cloud sont extrêmement mises à mal par ces considérations aujourd’hui. Le RGPD (Règlement général pour la protection des données) a d’autant plus renforcé la sensibilité de ces traitements de données. Pour en savoir plus vous pouvez consulter notre article de blog dédié à ce sujet. Même avec des protocoles d’anonymisation des données ou de chiffrage, tant que le transfert est possible à travers une connectivité, les données ne sont pas totalement sécurisées.

C’est là où l’embarqué offre de belles promesses aux constructeurs. Il leur permet de se défaire intégralement de ces problématiques pour proposer une sécurisation totale des données. Pour certains secteurs d’activités dont nous parlerons plus tard, il ne s’agit pas simplement d’un confort d’utilisation mais d’un pré-requis essentiel.

Pour nuancer, il faut tout de même considérer que la donnée est une force primordiale pour les entreprises à différentes échelles. Des modèles hybrides existent, mêlant des processus embarqués avec une connectivité possible pour certaines fonctionnalités, nous en parlerons dans la suite de l’article.

L’embarqué n’est pas dépendant d’une connexion Internet

Directement lié au point précédent sur la Privacy by Design, la dépendance à une connexion internet est une contrainte supplémentaire à prendre en compte. Lors de la création d’un produit ou d’un service, il faut s’assurer de l’accessibilité de ce dernier par les utilisateurs, compte tenu de leur environnement et accès à internet.

Aujourd’hui, il paraît impensable qu’internet ne soit pas disponible à chacun. Pourtant, la réalité est bien différente. D’une part, la couverture des réseaux internet n’est pas intégrale sur notre planète. Par exemple, un assistant vocal cloud dans un véhicule tout-terrain prévu pour traverser des montagnes ou des déserts aurait énormément de mal à fonctionner tant l’accès à internet est rare dans ce type d’environnement. En plus de cet aspect, dans de nombreux cas, la conception des produits et services isolent la connectivité pour des raisons protocolaires. Le domaine de la défense par exemple privilégie les systèmes embarqués car la connectivité des outils est une problématique de sécurité.

L’embarqué ici se défait des services extériorisés sur le Cloud pour ses processus de calculs. C’est notamment pour cette raison que la technologie vocale hors-ligne est utilisée dans des applications spécifiques où les conditions d’utilisation doivent respecter un cahier des charges strict. Comme dit précédemment, les modèles de machine learning aujourd’hui sont suffisamment performants et optimisés pour offrir des centaines de cas d’usages sans problème.

La technologie vocale embarquée a une empreinte technologique faible

Étant dépendantes des ressources fournies par l’appareil dans lequel elles sont hébergées, les technologies embarquées se doivent d’être optimisées. Cette contrainte à première vue se transforme rapidement en un avantage clé pour de nombreux fabricants. En effet, l’embarqué est souvent assigné à l’absence de connectivité, et cela par habitude. À l’origine, on parle d’embarqué comme de systèmes fonctionnels avec une très faible empreinte technologique. Ces solutions doivent être fonctionnelles sur les petits composants électroniques tout en proposant les meilleures fonctionnalités.

C’est de ce paradigme que les modèles utilisés pour développer ces technologies ont toujours pris en compte les contraintes hardware. Avant la démocratisation massive des microprocesseurs, de nombreux acteurs utilisaient des microcontrôleurs dans les processus de fabrication. Ces composants, qui présentent pourtant des capacités matérielles réduites, n’ont pas freiné les technologies vocales embarquées dans leur intégration. Il est possible, à l’heure actuelle de la R&D, de faire tourner des moteurs complexes de reconnaissance vocale ou de synthèse vocale avec une utilisation infime du CPU et de la RAM. Grâce à cette faculté, on parle d’intégration “seamless”, c’est-à-dire qu’elle n’altère que très peu le système dans lequel les modules sont implémentés.

L’embarqué permet de maîtriser les coûts de déploiement

L’intégration des fonctionnalités vocales dans un produit ou service passe par la conception et le développement de la solution, mais aussi par la budgétisation. Côté business model, les fournisseurs de technologies Cloud fonctionnent généralement au modèle du coût à la requête (chaque fois qu’un appel au serveur est effectué, une facturation a lieu de l’ordre de quelques centimes) ou de l’abonnement (plus rare, ou uniquement pour des solutions finies). Problème principal : comment mesurer le budget mensuel nécessaire lorsque la quantité de requêtes effectuées est incontrôlable ? Aujourd’hui, assurer la viabilité d’un projet vocal est tout aussi important que la conception même de la solution. L’embarqué, par nature, est propice à être distribué selon des business models bien plus maîtrisables par les entreprises. En effet, on retrouve généralement les modèles suivants :

Abonnement : Coût périodique associé à l’exploitation commerciale de la technologies vocales embarquées. Cette méthode permet d’incorporer le coût de la technologie au coût de revient du produit.
Perpétuel : Étant donné que la technologie embarqué est vouée à rester dans le hardware, ce dernier peut être vendu comme un produit fini, en “one-shot”. En parallèle, un système de royalties est instauré pour la production de nouvelles unités équipées des solutions vocales.

Il est ainsi bien plus facile pour une entreprise d’avoir de la visibilité quant à sa gestion des coûts. Avant d’être une expérience et un outil ergonomique, l’intégration de la technologie vocale embarquée doit être un projet rentable pour la structure qui l’entreprend.

À qui s’adresse la technologie vocale embarquée ?

Les technologies vocales embarquées peuvent s’adapter à tous les usages

Certes l’embarqué s’oriente, par nature, vers certains domaines qui ont des contraintes auxquelles il répond. Pour autant, n’importe quel secteur peut en tirer profit pleinement. En effet, les apports de l’embarqué, notamment en termes de données privées et de maîtrise des coûts pour ne citer que ces deux avantages, sont perceptibles à tout niveau.

Aujourd’hui, même des acteurs pro-Cloud comme les GAFAM se tournent vers l’embarqué pour certaines fonctionnalités. En effet, au détriment des données personnelles, ressource principale de leur business model, ces géants technologiques trouvent dans l’embarqué des technologies vocales plus adaptées que le Cloud pour des tâches de navigation par exemple. La frontière entre le Cloud et l’embarqué n’est plus aussi présente que par le passé, l’agilité des technologies rapproche ces deux méthodes pour constituer des solutions performantes.

Dans les utilisateurs de technologie vocale embarquée, nous trouvons des entreprises qui décident elles-mêmes de développer leur solution avec leurs ressources internes et expériences. Ce n’est cependant pas (encore) à la portée de tous les acteurs de créer une interface vocale complète. C’est pourquoi des bureaux d’études comme Witekio montent en compétences dans ce type de développement pour accompagner des projets complexes à intégrer dans des systèmes plus riches.

Retour d’expérience : Witekio, spécialiste de l’embarqué

Witekio est un expert en logiciels embarqués avec une approche au niveau du système, de l’ingénierie et de l’intégration de logiciels de systèmes intelligents pour tout appareil, du hardware au cloud. La société apporte son expertise technique à de nombreux clients pour développer des solutions qui s’adaptent aux usages des marchés spécifiques ciblés tout en intégrant les meilleures technologies disponibles.
Face à l’augmentation croissante de projet incorporant les technologies vocales embarquées, Witekio utilise le Voice Development Kit, le kit de développement logiciel spécialisé dans la voix par Vivoka, pour répondre à la demande.

Dans l’apprentissage de l’outil de développement de Vivoka, Witekio a expérimenté différents cas d’usages, nés de leur expérience ou de demandes clients. Dans ce cadre, une grue à assistance vocale ainsi qu’un distributeur et une machine à café ont vu le jour. Ces appareils, très différents dans leur composition, intègrent tous des moteurs d’automatic speech recognition et de synthèse vocale. Comme dit précédemment, les ressources disponibles pour chacun sont très différentes, du microprocesseur Imxm8 de NXP jusqu’à des cartes électroniques embarquées dans les appareils nativement.

(Cliquez sur l’image pour accéder à l’étude de cas Witekio)

Quels sont les appareils qui intègrent la technologie vocale embarquée ? (Imxm8, STMicroelectronics …)

Le vocal embarqué existe par la présence de composants électroniques adaptés. De nombreux acteurs aujourd’hui conçoivent et produisent des microprocesseurs polyvalents, capables d’alimenter tous types de systèmes embarqués. Parmi ces silicon vendors (fabricants de composants), nous retrouvons des entreprises comme NXP (Imxm8 dont nous avons parlé auparavant), STMicroelectronics ou Texas Instruments par exemple.

Ces composants sont de plus en plus intégrés dans les différents appareils produits ce qui rend accessible l’intégration vocale embarquée. En effet, les microprocesseurs offrent de bonnes performances avec des CPU performants et des capacités de stockage associées suffisamment larges pour héberger des moteurs vocaux complexes. À cela s’ajoute les capacités d’optimisation offertes par les technologies elles-mêmes. Par exemple, les voix synthèses proposées dans le Voice Development Kit sont répartie dans 4 qualité (compact, high, pro et premium) allant de 10MB de stockage (6MB de RAM) à 558MB nécessaires (198MB de RAM). Il est donc facile aujourd’hui de trouver des compromis entre rigueur technique et qualité de résultats.

Ce qu’il faut également prendre en compte c’est que les technologies vocales embarquées ne s’intègrent pas uniquement dans des microprocesseurs puissants. N’importe quel système embarqué, qu’il soit d’une manufacture industrielle ou custom, peut être utilisé. Des contraintes liées aux spécifications seront évidemment présentes, tout comme la présence d’un micro on-board ou déporté sera un élément indispensable à l’utilisation de commandes vocales.

Est-il possible de mélanger technologie vocale embarquée et cloud ?

L’embarqué présente bien des avantages lorsqu’on parle de technologies vocales. Privacy, faibles ressources nécessaires, maîtrise des coûts… Pour autant, il n’est pas forcément adapté à tous les cas d’usages, ni tous les objectifs. Il faut prendre en compte qu’un système embarqué est prévu pour fonctionner indépendamment. Il ne communique avec aucun autre dispositif par essence.
Les solutions vocales embarquées sont de puissants outils à condition qu’elles soient spécialisées dans un domaine précis, avec des utilisateurs et des usages connus, cadrés et anticipés. C’est pour cette raison que la méthode hybride est souvent étudiée dans des projets clients.

Cette architecture consiste à déployer des moteurs technologiques fonctionnant en embarqué, on-device, tout en conservant une connectivité avec des périphériques adaptés. Cette connectivité peut être un lien distant avec un serveur Cloud ou une conception On-Premise, c’est-à-dire avec un serveur local.

L’utilisation du Cloud va toutefois corrompre l’aspect Privacy by Design du système. Pour autant, cela ne veut pas dire que la privacy en général est mise à mal. En effet, l’anonymisation des données avec des protocoles bien étudiés permet de conserver cet argument prépondérant. C’est pour ce sacrifice que le système peut finalement avoir accès au Cloud et ses nombreux avantages :

Accéder à des services extérieurs

La connectivité du Cloud permet d’avoir accès aux API de nombreux services extérieurs. Ces passerelles permettent de drastiquement augmenter le champs d’application d’un système vocal en lui fournissant des bases de données multimédias ou des applications tierces. Par exemple, pouvoir consulter des encyclopédies en ligne comme Wikipedia ou utiliser un services de streaming (youtube, spotify etc…) sont des usages réservés aux solutions connectées.

Permettre l’analyse des données

Contrairement au fonctionnement 100% embarqué, les technologies Cloud utilisent et font circuler les données entre les différents services. Dans ce maillage, les données peuvent être récoltées, archivées et labellisées pour plusieurs raisons. Tout d’abord dans un cadre d’analyse pour évaluer le service et aider à la prise de décision quant aux améliorations et corrections à y apporter. Les données permettent également d’entraîner les modèles de reconnaissance vocale dans une philosophie d’amélioration continue du service.

Mettre à jour à distance et gérer les maintenances

De la même manière que les données peuvent être envoyées à des serveurs distants pour être traitées, elles peuvent être envoyées directement au système connecté. De la sorte, il est possible pour l’entreprise propriétaire du produit ou service de faire des mises à jour ou des correctifs à distance et sur un parc important d’unités. Les processus de maintenances prédictives sont également à prendre en compte. En effet, pouvoir contrôler à distance le cycle de vie d’un produit permet aux entreprises d’en assurer la pérennité. De facto, cela contribue à améliorer l’expérience utilisateur.

Garantir une vaste accessibilité au service

Les technologies Cloud, de par leur connectivité, sont facilement adaptables à l’utilisateur. Dans le cas des assistants vocaux, les moteurs de reconnaissance vocale peuvent facilement passer d’une langue à l’autre selon l’utilisateur. En embarqué, il faut prévoir ce genre d’éventualité car la solution est plus difficilement flexible. L’accessibilité, surtout dans la technologie, est un facteur clé aujourd’hui. Le Cloud permet une réactivité importante et un contrôle sur d’énormes quantités d’unités, ce qui le rend attractif aux yeux de nombreuses entreprises.

Quelles sont les solutions alternatives à l’embarqué ?

Une construction hybride, entre cloud et embarqué

L’embarqué est un outil incroyablement puissant et pratique dans de nombreux contextes, si tant est que la spécialisation est respectée, pour autant il possède des lacunes que le Cloud transgresse. C’est dans ce paradigme que des solutions hybrides voient le jour. Elles permettent de tirer le meilleur des deux mondes :

D’une part des moteurs vocaux on-device qui fonctionnent indépendamment, selon les cas d’usages prévus et proposés aux utilisateurs dans la finalité convenue ;
D’autre part, un accès à des services extérieurs, la communication de données et des possibilités d’interactions à distance avec des serveurs Cloud.

Fondamentalement, le mariage des deux types de technologies est une solution efficace pour compenser leurs lacunes respectives.

L’installation on-premise avec le recours à des serveurs locaux

Au-delà du Cloud, il existe aussi des fonctionnements par serveurs locaux. Cette solution se rapproche de la vertu de l’embarqué. En effet, les données issues des utilisateurs ne naviguent pas sur des systèmes à grande échelle mais sur des infrastructures réseaux plus petites, à l’échelle d’un pôle d’entreprise. Le serveur local lui, peut également être doté d’une connectivité Cloud plus large. Cela permet notamment des méthodes de communication différentes entre les appareils et le serveur local, tout en bénéficiant des bienfaits d’internet.

Ce fonctionnement on-premise présente beaucoup de versatilité et pourra convenir à de nombreuses entreprises qui nécessitent certaines spécifications dans leur usage.

Conclusion sur la technologie vocale embarquée

L’embarqué quant aux technologies vocales est une solution plus que viable. Il s’agit d’un type de technologie très adapté pour certains cas d’usages qui nécessitent des caractéristiques que l’embarqué peut apporter. Il peut s’agir de l’indépendance du système, de la privacy ou de la maîtrise des coûts de déploiement par exemple. Pour autant, entre cloud et embarqué, il n’y a pas vraiment de réponse. C’est à vous, éditeur de logiciel, fabricant d’électronique ou tout autre professionnel, de définir ce qui correspond le plus à vos besoins. Ces technologies n’ont pas pour objectif de se confronter, mais de se compléter et de couvrir les attentes des entreprises désirant intégrer la voix dans leurs process.

Pour un développement et une intégration réussie, nous vous conseillons d’utiliser des outils spécialisés pour lesquels vous pourrez avoir du support de leurs créateurs. Vivoka propose le Voice Development Kit afin de développer des technologies vocales embarquées via un SDK puissant accompagné de documentations pour faciliter son usage. Pour des projets plus complexes dans lesquels vos ressources manquent, des intégrateurs comme Witekio sont les bons interlocuteurs pour vous assister.

C'est toujours le bon moment pour en apprendre plus sur les applications de la technologie vocale

Découvrir le contenu

Quand la Logistique redéfinit l’Expérience Client

Découvrir, Récent

Le secteur de la logistique opère dans des environnements mouvementés et en constante évolution, où une gestion efficace des processus de traitement des commandes est décisive pour maintenir une...

lire plus