le MP3 Comment ça marche ?
Comment ça marche le MP3 ?
Un son, c'est une vibration. Par exemple, voici l'aspect de la vibration de la note LA (celle que vous avez en frappant un diapason ou en décrochant votre téléphone):
une représentation de la note "LA"
échantillonnage du signal
Reconstitution du signal à partir des valeurs
Extrait de "Summertime" chanté par Ella Fitzgerald
signal à 440 Hz
signal à 880 Hz
Signal mélangeant 440 et 880 Hz
Exemples de transformées de Fourrier sur différents signaux
Un son, c'est une vibration. Par exemple, voici l'aspect de la vibration de la note LA (celle que vous avez en frappant un diapason ou en décrochant votre téléphone):
une représentation de la note "LA"
Pour numériser (ou "digitaliser") ce signal, l'ordinateur en mesure la valeur régulièrement.
échantillonnage du signal
En qualité CD Audio, l'ordinateur prendre 44100 mesures par
seconde. On dit qu'on échantillonne à 44100 Hertz (ou 44100 Hz, ou
encore 44,1 kHz).
C'est exactement ce qui se passe quand l'ordinateur
enregistre un fichier WAV : les valeurs mesurées sont enregistrées dans
le fichier.
Pour rejouer le fichier WAV, l'ordinateur recréé le signal à partir de chaque valeur enregistrée.
Reconstitution du signal à partir des valeurs
Tous les sons qui nous entourent (musique, bruits...) sont
des vibrations que l'on peut échantillonner de cette manière. Par
exemple, voici un petit bout du signal de la voix d'Ella Fitzgerald dans
la chanson "Summertime":
Extrait de "Summertime" chanté par Ella Fitzgerald
Le problème, c'est qu'il faut enregistrer un très grand
nombre de valeurs pour chaque seconde de son. Il faut beaucoup de
mémoire et beaucoup de place sur disque dur.
Il a donc fallu trouver des moyens pour gagner de la place.
On essai de compresser le signal, c'est à dire d'utiliser moins de
données pour mémoriser la même information.
Dans notre premier exemple - le LA du diapason - on voit
bien qu'il y a une répétition. En fait, le signal vibre 440 fois par
seconde. On dit qu'il est à 440 Hz.
signal à 440 Hz
A 880 Hz, la vibration est deux fois plus rapide et le son plus aigu:
signal à 880 Hz
On peut mélanger les deux signaux (440 Hz et 880 Hz):
Signal mélangeant 440 et 880 Hz
Plutôt que d'enregistrer tous les échantillons
(toutes les valeurs) de ce signal, on pourrait n'enregistrer que les
valeurs 440 et 880.
Ainsi, avec seulement 2 valeurs, on peut reconstituer le signal !
Reconstitution du signal mélangeant 440 et 880 Hz
La transformation mathématique qui permet de trouver toutes les fréquences constituant un signal est appelé transformée de Fourrier.
Par exemple:
Exemples de transformées de Fourrier sur différents signaux
C'est sur ce principe qu'est basé le format
MP3 : on enregistre les différentes fréquences qui composent un signal
et on les note dans le fichier MP3.
Pour rejouer le son (ou la musique), on prend
la liste des fréquences, on recréé des signaux de différentes fréquences
et on les mélange. Le son est reconstitué.
De plus, les logiciels qui crééent des fichiers MP3 se basent sur un modèle psycho-acoustique
pour supprimer certaines fréquences. En effet, l'oreille humaine (et le
cerveau) ne perçoivent pas certains sons (fréquences très proches, sons
faibles couverts par d'autres sons, etc.). Ils sont supprimés.
Ce modèle psycho-acoustique faite toute la différence entre les différents encodeurs MP3.
L'encodeur MP3 qui possède le meilleur modèle
psycho-acoustique est celui de l'université Fraunhofer IIS,
commercialisé dans certains logiciels (.mp3 Producer par
exemple). Cela lui permet d'avoir une meilleure qualité sonore que les
autres encodeurs, en particulier dans les forts taux de compression.