GitHub

Omnilingual ASR - TopFree AI

Vue d'ensemble

Omnilingual ASR est un système de reconnaissance automatique de la parole à la pointe, conçu pour unifier et faire évoluer les capacités de transcription vocale de plus de 1 600 langues natales, avec une extension potentielle à plus de 5 000 langues grâce à l’apprentissage few-shot. En combinant des encodeurs auto-supervisés avancés de type wav2vec, des décodeurs renforcés par des grands modèles de langage (LLM) et des corpus multilingues soigneusement équilibrés, Omnilingual ASR représente une avancée révolutionnaire dans la technologie de la parole multilingue. Soutenu par des recherches fondamentales réalisées dans les meilleurs laboratoires d’IA, incluant Meta, Google et OpenAI, il utilise des ensembles de données variés tels que Common Voice, MLS, Babel et VoxPopuli pour s’entraîner sur plus de 12 millions d’heures d’audio, offrant des transcriptions très précises et peu sujettes aux erreurs, même pour les langues peu dotées en ressources ou rares.

Omnilingual ASR combine des innovations telles que les modèles Massively Multilingual Speech (MMS) de Meta et le Universal Speech Model (USM) de Google avec des décodeurs avancés basés sur des transformeurs pour fournir une couverture linguistique étendue via un modèle unique unifié. Ses versions open source (sous licence Apache 2.0) et ses API déployables dans le cloud (via Google, Microsoft, AWS) offrent des options flexibles aussi bien pour la recherche que pour la production, permettant des applications de reconnaissance vocale à l’échelle mondiale.

Fonctionnalités clés

Encodeurs adaptatifs aux langues : Omnilingual ASR utilise des encodeurs wav2vec 2.0, Conformer et MMS partageant des représentations acoustiques entre langues, aidant ainsi les langues peu dotées en ressources à bénéficier des données des langues riches en données.
Décodeurs améliorés par LLM : Des décodeurs transformeurs affinés en tant que modèles de langue améliorent la grammaire des transcriptions et permettent la traduction simultanée.
Extensibilité en few-shot : Le système peut étendre sa couverture au-delà de 1 600 langues à plus de 5 000 via des prompts few-shot en contexte, favorisant une croissance communautaire du modèle à partir de données minimales.
Identification intégrée des langues : Des modèles comme Whisper émettent des jetons d’identification linguistique en amont, tandis que MMS offre une classification pour 4 000 langues, permettant un traitement précis des audios à code-switching et multilingues.

Omnilingual ASR

Plus de produits

Introduction

Vue d'ensemble

Fonctionnalités clés

Informations

Catégories

Cas d’usage

FAQ

Newsletter

Rejoindre la communauté

Newsletter

Rejoindre la communauté

Omnilingual ASR

Plus de produits

Introduction

Vue d'ensemble

Fonctionnalités clés

Informations

Catégories

Cas d’usage

FAQ