Au-delà des slogans marketing peaufinés à l'extrême (« Où la langue rencontre le monde », « Construire des ponts entre les langues, les cultures et la technologie ») et des louables intentions (« Microsoft Translator Hub aide les langues moins répandues à prospérer en donnant aux communautés locales le pouvoir de construire des systèmes de traduction automatique »), quels peuvent être les buts de Microsoft et de son nouveau Translator Hub ?
Lancé hier, le Microsoft Translator Hub est un service qui permet à tout un chacun (individus, communautés locales, entreprises) de construire, former et déployer des systèmes personnalisés de traduction automatique. Il met en avant le nombre de langues cibles supportées : 1 462, soit un nombre relativement impressionnant pour ce type d'outil, ce qui permet de le présenter comme un outil qui s'adresse aux langues peu répandues. Intention louable a priori.
Mais un bémol s'impose dès que commence la phase d'entraînement du modèle, puisqu'il faut le nourrir de fichiers de segments alignés qui font correspondre un texte de la langue cible à un texte de la langue source. Et à ces fichiers sont associés des droits, que vous perdez aussitôt (« En téléchargeant mes documents, je confirme que le contenu que je soumets n'enfreint pas les droits d'auteur, les droits publicitaires, les droits de vie privée ou autres droits de propriété intellectuelle. Je suis titulaire des droits suffisants sur le contenu pour accorder à Microsoft la licence fournie dans ses Termes d'Utilisation. », Termes d'Utilisation on ne peut plus explicites).
On voit donc que sous couvert d'un service dédié aux langues plus ou moins rares (comme relayé ici et là), Microsoft va récupérer assez de données pour entraîner ses propres algorithmes de traduction automatique à moindre frais, tout en détectant les langues les plus en demande. Car là réside un problème majeur des langues rares, minoritaires ou en danger : leur sous-représentation sur le web (et partant, le nombre très limité de données accessibles pour établir des alignements automatiques de corpus).
On voit aussi que l'ajout d'une liste conséquente de langues potentiellement supportées (d'ailleurs, pourquoi se limiter à 1 462 ?) créé un effet d'annonce en soi. Autrement, ce Translator Hub n'aurait été qu'un nouvel outil parmi d'autres.
Faut-il pour autant délaisser cet outil ?
Si vous désirez développer à moindre coût un outil de traduction automatique pour une langue peu représentée mais pour laquelle vous avez assez de textes originaux et traduits correspondants, l'offre de Microsoft peut vous intéresser, puisque vous aiderez peut-être ainsi le futur développement d'outils de traduction pour cette langue. Mais si vous préférez garder la main sur vos corpus, il vous faudra développer vos propres outils, ou utiliser des outils commerciaux.
« Imaginez un réseau de centaines de milliers de traducteurs automatiques non seulement entraînés pour quelques langues et secteurs de l'industrie, mais réglés pour une myriade de paires de langues, de nombreux sous-domaines et customisés pour chaque entreprise et chaque offre. [...] Ce réseau devra être nourri d'un flux sans fin de mots traduits. » (source : Who gets paid for translation in 2020)
Ce futur est déjà présent : il faut nourrir la machine, et au moindre coût. Exploitation des données du web, numérisation de livres, corpus alignés offerts par la communauté… Toutes les pistes sont exploitables.
Lancé hier, le Microsoft Translator Hub est un service qui permet à tout un chacun (individus, communautés locales, entreprises) de construire, former et déployer des systèmes personnalisés de traduction automatique. Il met en avant le nombre de langues cibles supportées : 1 462, soit un nombre relativement impressionnant pour ce type d'outil, ce qui permet de le présenter comme un outil qui s'adresse aux langues peu répandues. Intention louable a priori.
Mais un bémol s'impose dès que commence la phase d'entraînement du modèle, puisqu'il faut le nourrir de fichiers de segments alignés qui font correspondre un texte de la langue cible à un texte de la langue source. Et à ces fichiers sont associés des droits, que vous perdez aussitôt (« En téléchargeant mes documents, je confirme que le contenu que je soumets n'enfreint pas les droits d'auteur, les droits publicitaires, les droits de vie privée ou autres droits de propriété intellectuelle. Je suis titulaire des droits suffisants sur le contenu pour accorder à Microsoft la licence fournie dans ses Termes d'Utilisation. », Termes d'Utilisation on ne peut plus explicites).
On voit donc que sous couvert d'un service dédié aux langues plus ou moins rares (comme relayé ici et là), Microsoft va récupérer assez de données pour entraîner ses propres algorithmes de traduction automatique à moindre frais, tout en détectant les langues les plus en demande. Car là réside un problème majeur des langues rares, minoritaires ou en danger : leur sous-représentation sur le web (et partant, le nombre très limité de données accessibles pour établir des alignements automatiques de corpus).
On voit aussi que l'ajout d'une liste conséquente de langues potentiellement supportées (d'ailleurs, pourquoi se limiter à 1 462 ?) créé un effet d'annonce en soi. Autrement, ce Translator Hub n'aurait été qu'un nouvel outil parmi d'autres.
Faut-il pour autant délaisser cet outil ?
Si vous désirez développer à moindre coût un outil de traduction automatique pour une langue peu représentée mais pour laquelle vous avez assez de textes originaux et traduits correspondants, l'offre de Microsoft peut vous intéresser, puisque vous aiderez peut-être ainsi le futur développement d'outils de traduction pour cette langue. Mais si vous préférez garder la main sur vos corpus, il vous faudra développer vos propres outils, ou utiliser des outils commerciaux.
« Imaginez un réseau de centaines de milliers de traducteurs automatiques non seulement entraînés pour quelques langues et secteurs de l'industrie, mais réglés pour une myriade de paires de langues, de nombreux sous-domaines et customisés pour chaque entreprise et chaque offre. [...] Ce réseau devra être nourri d'un flux sans fin de mots traduits. » (source : Who gets paid for translation in 2020)
Ce futur est déjà présent : il faut nourrir la machine, et au moindre coût. Exploitation des données du web, numérisation de livres, corpus alignés offerts par la communauté… Toutes les pistes sont exploitables.
Microsoft Translator Hub, where automatic translation helps endangered languages (en anglais)
Microsoft Translator Hub, ou a tradução automática ao serviço das línguas em perigo (en portugais)
Microsoft Translator Hub, o la traducción automática al servicio de las lenguas en peligro (en espagnol)
Aucun commentaire:
Enregistrer un commentaire