Bitget App
Trade smarter
Acheter des cryptosMarchésTradingFuturesEarnCommunautéPlus
Meta AI présente une solution de reconnaissance vocale automatique omnilingue, faisant progresser la reconnaissance vocale automatique dans plus de 1

Meta AI présente une solution de reconnaissance vocale automatique omnilingue, faisant progresser la reconnaissance vocale automatique dans plus de 1

MPOSTMPOST2025/11/12 02:36
Par:MPOST

En bref Meta AI a lancé le système Omnilingual ASR, qui assure la reconnaissance vocale pour plus de 1 600 langues, et a publié des modèles open source ainsi qu'un corpus pour 350 langues sous-représentées.

Division de recherche de la société technologique Meta, spécialisée dans l'IA et la réalité augmentée, Méta IA a annoncé la sortie du système de reconnaissance vocale automatique (ASR) Meta Omnilingual. 

Cette suite de modèles assure la reconnaissance vocale automatique pour plus de 1 600 langues, offrant des performances de haute qualité à une échelle sans précédent. Par ailleurs, Meta AI met à disposition en open source Omnilingual wav2vec 2.0, un modèle de représentation vocale massivement multilingue et auto-supervisé, doté de 7 milliards de paramètres et conçu pour prendre en charge diverses tâches de traitement vocal.

En parallèle de ces outils, l'organisation publie également le corpus ASR omnilingue, une collection soigneusement sélectionnée de transcriptions vocales issues de 350 langues sous-représentées, développée en partenariat avec des collaborateurs du monde entier.

La reconnaissance vocale automatique a progressé ces dernières années, atteignant une précision quasi parfaite pour de nombreuses langues largement parlées. Cependant, son extension aux langues moins bien dotées en ressources reste un défi en raison des exigences élevées en matière de données et de calcul des architectures d'IA existantes. Le système Omnilingual ASR surmonte cette limitation en adaptant l'encodeur vocal wav2vec 2.0 à 7 milliards de paramètres, créant ainsi de riches représentations multilingues à partir de la parole brute non transcrite. Deux variantes de décodeur transforment ces représentations en jetons de caractères : l'une utilise la classification temporelle connexionniste (CTC) et l'autre une approche basée sur les transformateurs, similaire à celle employée dans les grands modèles de langage.

Cette approche ASR inspirée par LLM atteint des performances de pointe sur plus de 1 600 langues, avec des taux d'erreur de caractères inférieurs à 10 pour 78 % d'entre elles, et introduit une méthode plus flexible pour l'ajout de nouvelles langues. 

Contrairement aux systèmes traditionnels qui nécessitent un paramétrage précis par des experts, la reconnaissance automatique de la parole omnilingue (Omnilingual ASR) peut intégrer une langue auparavant non prise en charge à partir de quelques exemples audio-texte seulement, permettant ainsi la transcription sans avoir besoin de données volumineuses, d'expertise spécialisée ni de puissance de calcul importante. Bien que les résultats obtenus avec un seul exemple ne soient pas encore aussi bons que ceux des systèmes entièrement entraînés, cette méthode offre une solution évolutive pour intégrer les langues sous-représentées à l'écosystème numérique.

Meta AI pour faire progresser la reconnaissance vocale grâce à une suite ASR omnilingue et un corpus 

Le département de recherche de FAIR a publié une suite complète de modèles et un jeu de données conçus pour faire progresser la technologie vocale dans toutes les langues. S'appuyant sur les travaux antérieurs de FAIR, Omnilingual ASR inclut deux variantes de décodeur : des modèles légers de 300 Mo pour les appareils à faible consommation et des modèles de 7 Mo offrant une haute précision pour diverses applications. Le modèle de base vocal wav2vec 2.0, polyvalent, est également disponible en plusieurs tailles, permettant ainsi de réaliser un large éventail de tâches liées à la parole, au-delà de la simple reconnaissance automatique de la parole (ASR). Tous les modèles sont distribués sous licence Apache 2.0 et le jeu de données est disponible sous licence CC-BY, permettant aux chercheurs, aux développeurs et aux défenseurs des langues d'adapter et d'enrichir les solutions vocales grâce au framework open source fairseq2 de FAIR, intégré à l'écosystème PyTorch.

Le système de reconnaissance automatique de la parole omnilingue (ASR) est entraîné sur l'un des corpus ASR les plus vastes et les plus diversifiés linguistiquement jamais constitués, combinant des ensembles de données accessibles au public et des enregistrements issus de la communauté. Afin de prendre en charge les langues ayant une présence numérique limitée, Méta IA En partenariat avec des organisations locales, nous avons recruté et rémunéré des locuteurs natifs dans des régions isolées ou sous-représentées, créant ainsi le corpus de reconnaissance automatique de la parole omnilingue (Omnilingual ASR Corpus), le plus vaste ensemble de données de reconnaissance automatique de la parole spontanée à très faibles ressources jamais constitué. D'autres collaborations, menées dans le cadre du Programme de partenariat en technologies linguistiques, ont réuni linguistes, chercheurs et communautés linguistiques du monde entier, notamment grâce à des partenariats avec Common Voice de la Fondation Mozilla et Lanfrica/NaijaVoices. Ces efforts ont permis d'acquérir une connaissance linguistique approfondie et un contexte culturel précieux, garantissant ainsi que la technologie réponde aux besoins locaux tout en contribuant à l'autonomisation des diverses communautés linguistiques à l'échelle mondiale.

0
0

Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.

PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !

Vous pourriez également aimer

Pas de société PNJ RedefiLa culture des mèmes à travers la conscience numérique et la gouvernance décentralisée

En bref Pas de société PNJ, une Web3 Ce mouvement promeut la conscience numérique et une culture anti-NPC grâce à un jeton mème communautaire et une gouvernance décentralisée.

MPOST2025/12/16 05:39
Pas de société PNJ RedefiLa culture des mèmes à travers la conscience numérique et la gouvernance décentralisée

Byrrgis obtient une licence MiCA et ouvre une liste d'attente avant le lancement de sa plateforme crypto hybride

En bref Byrrgis a obtenu une licence européenne conforme à la loi MiCA et a ouvert sa liste d'attente avant le lancement, le 15 janvier, d'une plateforme de trading de cryptomonnaies hybride réglementée qui combine des modèles centralisés et décentralisés tout en visant la certification CASP de niveau 3.

MPOST2025/12/16 05:39
Byrrgis obtient une licence MiCA et ouvre une liste d'attente avant le lancement de sa plateforme crypto hybride

MetaMask devient multichaîne avec la prise en charge native Bitcoin .

Partager le lien:Dans cet article : MetaMask permet désormais aux utilisateurs de détenir, d'acheter, d'envoyer et d'échanger Bitcoin directement dans leur portefeuille, éliminant ainsi le besoin de jetons encapsulés ou de services externes. Les utilisateurs qui échangent Bitcoin sur MetaMask peuvent gagner des points de récompense dans le cadre d'un programme communautaire de 30 millions de dollars. Le déploiement Bitcoin devrait stimuler l'activité sur la blockchain et positionner MetaMask comme une plat

Cryptopolitan2025/12/16 03:00

Ford vient d'abandonner son véhicule électrique phare, ce qui lui fera perdre 19,5 milliards de dollars.

Partager le lien:Dans cet article : Ford abandonne son F-150 Lightning entièrement électrique et enregistre une perte de 19,5 milliards de dollars en revenant aux véhicules hybrides et à essence. Cette mesure fait suite à la décision de Trump de supprimer le crédit d'impôt de 7 500 $ pour les véhicules électriques, ce qui a entraîné une chute de 49 % des ventes de véhicules électriques en un seul mois. Ford prévoit désormais de se concentrer sur des modèles électriques plus petits et moins chers et vise à

Cryptopolitan2025/12/16 03:00
© 2025 Bitget