Construire la reconnaissance vocale pour une nouvelle langue à partir de zéro

Monolord's Knight

2015-02-12 16:26:28 UTC

view on stackexchange narkive permalink

Je connais C ++ et PHP, je connais la POO et les usages des technologies de base de données. Je dois créer un logiciel de reconnaissance vocale pour ma propre nation, dont les symboles sont uniques mais pris en charge par UTF-8. et jusqu'à présent aucun éditeur de logiciels n'a pris l'initiative de le faire. J'ai besoin de savoir quel langage de programmation sera parfait et quels cours devrais-je suivre pour apprendre le processus. Je n'aime pas traiter la langue via SAPI ou intégrer des technologies de reconnaissance car elles sont basées sur l'anglais (problème ici, la grammaire et la syntaxe sont si différentes - elles sont basées sur l'indo-européen). Et je veux le faire à partir de zéro (niveau machine / traitement de la voix - je veux que le son traité directement soit analysé en mes symboles (pas de transformation en anglais)). J'espère que vous comprendrez parce que j'attends cela avec impatience car c'est l'exigence de ma nation. Il ne s'agit pas de promouvoir un langage de programmation ou un cours. J'ai juste besoin de le savoir maintenant. (si ma question ne rentre pas ici, s'il vous plaît où elle correspond le plus et soyez assez gentil pour passer à ce forum. J'ai eu une expérience amère à ce sujet)

avoir une base de données solide sur la façon de prononcer les mots est nécessaire. C'est ce qu'on appelle le moteur TTS. La dernière entreprise pour laquelle j'ai travaillé, nous utilisons pour créer notre propre TTS car certaines langues / dialectes n'étaient pas disponibles sur le marché. Vous avez besoin de 2 interprètes, masculin et féminin de ton générique et il y a une liste spécifique de mots qu'ils doivent lire et vous les enregistrez. Cela générera la plupart du temps tous les sons possibles dont vous avez besoin. La plupart des langues nécessiteront entre 600 000 et 700 000 mots pour être enregistrés.

Merci @Franck,. Notre communauté est prête à contribuer à ces sons, peu importe le nombre de fois que cela nécessite. Au fait, quelle technologie votre dernière entreprise a-t-elle utilisée pour développer le système?

À ma connaissance, il n'y avait pas de codage impliqué pour la reconnaissance et la création de bases de données. Nous avions une salle d'enregistrement professionnelle où les femmes ont enregistré ces 700 000 mots pendant environ 10 mois à 1 an. Au final, pour faire de la reconnaissance vocale, nous avions un serveur TTS assez cher. Si je me souviens, c'est dans les 6 chiffres et c'est tout un système d'exploitation en soi. Nous l'appelions avec C #, asp classic, asp.net, VXML et un système téléphonique matériel.

merci pour cette info.

Un moteur TTS (Text to speech) est l'inverse de la reconnaissance vocale, n'est-ce pas? TTS permet à l'ordinateur de produire de la parole plutôt que de la comprendre.

Je ne sais pas comment ils se débrouillent pour la reconnaissance vocale, mais Python et Java ont des boîtes à outils NLP. En termes de vitesse, optez pour C ++

Si vous nommez votre langue, il serait plus facile de vous donner des conseils plus ciblés.