Techniques d'enrichissement de spectre des signaux audionumériques
Afin de limiter les dégradations liées au codage bas-débit des signaux audionumériques, la stratégie adoptée par la plupart des systèmes de compression de parole et de musique consiste à ne pas transmettre le contenu hautes-fréquences. C'est ainsi qu'aux environs des 20kbit/s, les codeurs...
Main Author: | |
---|---|
Published: |
Télécom ParisTech
2002
|
Online Access: | http://pastel.archives-ouvertes.fr/pastel-00000512 http://pastel.archives-ouvertes.fr/docs/00/49/96/95/PDF/Bandwidth_Extension_Tools_Patrice_Collen_Nov_2002.pdf |
Summary: | Afin de limiter les dégradations liées au codage bas-débit des signaux audionumériques, la stratégie adoptée par la plupart des systèmes de compression de parole et de musique consiste à ne pas transmettre le contenu hautes-fréquences. C'est ainsi qu'aux environs des 20kbit/s, les codeurs de musique actuels ne restituent pas les sons avec leur qualité naturelle (leur bande passante étant limitée aux environs des 6kHz). Les sons ainsi codés/décodés deviennent ternes et perdent de leur qualité. On se propose d'étudier dans cette thèse de nouvelles techniques susceptibles de palier à cette perte des aigus. Les systèmes d'enrichissement de spectre permettent, avec très peu de données additionnelles, de rehausser la bande passante, et donc la qualité de ces signaux à bande-limitée. Le principe de ces techniques consiste à exploiter les informations comprises dans le spectre basse-fréquence afin de synthétiser le signal pleine-bande de qualité proche de celle de l'original. Dans le cadre d'un contrat financé par France Télécom R&D , l'objectif de cette thèse est la réalisation d'un système d'enrichissement de spectre des signaux audionumériques (parole et musique). La technique PAT (Perceptual Audio Transposition) implémentée a fait l'objet de deux propositions de normalisation dans les instances DRM (Digital Radio Mondiale) et MPEG-4 (Moving Picture Experts Group). Le document est structuré en 4 parties. La première partie s'attache à introduire les principes de l'extension de bande en se fondant sur les propriétés psychoacoustiques et les caractéristiques des signaux audio mis en jeux. Grâce à cette étude préalable, l'enrichissement des signaux sonores est réalisé en deux étapes: une étape d'extension de la structure fine du spectre et une étape d'ajustement de l'enveloppe, qui font l'objet des deux chapitres suivants. Ainsi, la seconde partie est consacrée aux techniques d'estimation, de transmission et d'ajustement d'enveloppe spectrale. Deux techniques particulières sont développées: L'une basée sur la prédiction linéaire et l'autre sur la modélisation d'enveloppe par facteurs d'échelle dans le domaine fréquentiel. Dans la troisième partie, les différentes solutions permettant d'étendre la structure fine spectrale sont abordées. L'étude s'est portée notamment sur les translations de spectre dans le domaine fréquentiel et sur les distorsions non-linéaires. Enfin, en quatrième partie, on présente un schéma complet d'enrichissement de spectre avant d'en évaluer ses performances dans le cadre de la normalisation MPEG-4. Une toute nouvelle technique de compression des signaux audionumériques est ainsi introduite dans cette thèse. Celle-ci a montré un réel intérêt dans le domaine de la compression du son. Pour une qualité équivalente, la réduction de débit obtenue est de l'ordre de 25%. |
---|