Codage et Compression

Objectif de la compression ↪ réduire la longueur d’une séquence numérique (en binaire) sans affecter son contenu informatif (= conservation de l’information)

➡ Transformer l’information délivrée par la source numérique ↪ on doit éliminer les redondances = représentation efficace

Le but est donc :

de diminuer les tailles de fichiers et l’espace mémoire
d’augmenter la capacité de transmission (en télécom, afin d’avoir un débit + important)

Il existe 2 types de compression :

Compression sans perte ↪ on retrouve l’intégralité des données stockées sous forme comprimée (par exemple : billets pour un concert, déclaration d’impôts, bulletins de votes)
Compression avec pertes ↪ un peu de distorsion donc perte d’information mais plus complexe (par exemple : émissions podcasts, musiques au format mp3, photos, vidéos…)

Ici, on ne verra que la compression sans perte.

Codage de caractères

Introduction

Dans les exemples, nous verrons comment compresser du texte, donc il est important de voir comment on peut coder ce texte.

Les ordinateurs utilisent des données binaires, donc chaque caractère de texte va être codé par 1 nombre, donc par une suite de bits.

Il existe différents codages de caractères (évolution avec le temps et différente selon les langues)

codage Baudot (1874) : premier code binaire destiné à être utilisé par une machine

Code ASCII 1

Développé dans les années 1960, norme ISO 646 en 1983

Codage qui utilise 7 bits pour représenter un caractère, donc permet de représenter $2^8=128$ caractères différents ce qui représente :

26 lettres latines minuscules
26 lettres latines majuscules
10 chiffres décimaux
espace
ponctuation
parenthèses
codes de formatage (retour à la ligne, DEL, ESC)

Format : 1 octet par caractère (8ème bits soit à 0, soit un bit de parité pour détecter les erreurs selon les systèmes de transmission : pour l’uniformisation des données)

Donc développement d’autres codages de caractères

Autre codage de caractère (UTF-8)

ISO 2 8859

Versions ASCII étendues : Compatibilités ascendante et descendante (programme de lecture ISO8859 peut lire de l’ASCII et programme ASCII peut lire ISO8859)
Version la plus utilisée ISO8859-1 souvent dénommée Latin-1 (Europe Occidentale)
191 caractères codés sur un octet (au lieu de 128) ;
Versions ISO8859-2 (Europe de l’est), -3 (Europe du sud), -4 (Europe du nord), -5 (pour le russe), -6 (pour l’arabe)
Nombreuses versions non compatibles entre elles et insuffisant pour les langues à idéogrammes

Unicode (1987)

Créer un code universel
Augmenter le nombre de bits pour coder un caractère ↪ 16 bits (65536 caractères)
Inconvénients : 2 fois plus gros et non-compatible avec ASCII
Est devenu une famille de codage
En 1991, consortium Unicode, la norme Unicode, en plus d’un standard de codage de caractère, un immense rapport sur les langues.
La version 10.0,(8 518 nouveaux caractères) pour un total de 136 690 caractères est publiée le 20 juin 2017
Plusieurs encodage existent ↪ le plus connu UTF³ qui est compatible avec ASCII

UTF-8

Codage de longueur variable :

Nombre d’octets	Caractères codés
Sur 1 octet (0x00 à 0x7F)	tous les caractères du ASCII (MSB⁴ à 0)
Sur 2, 3 ou 4 octets	les autres caractères (MSB à 1)

Un premier octet (lead byte) suivi d’un nombre variable d’octets (trailing byte)(maximum 4 octets au total) représentent conjointement la valeur à encoder.
Bit de poids fort du lead byte à 1 et autant de bit à 1 que de trailing byte.
Un même caractère peut avoir plusieurs représentations choix du code le plus court

| | Formats du code | Nombre d’octets utilisés | Nombre de bits disponibles pour coder | | --------------------------------------------------------------------------------------------------------------------------- | --------------- | ------------------------ | | 0xxxxxxx | 1 | 7 bits | | 110xxxxx 10xxxxxx | 2 | 8 à 11 bits | | 1110xxxx 10xxxxxx 10xxxxxx | 3 | 12 à 16 bits | | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx | 4 | 17 à 21 bits |

21 bits sont suffisants pour représenter l’ensemble des caractères définis par l’Unicode

L’UTF-8 domine le web, c’est le codage le plus utilisé actuellement (source)

Percentages of websites using various character encoding, UTF-8 is leading with 98%

utilisation de l'UTF-8 au cours du temps |

Compression

Introduction

La distribution des lettres n’est pas équivalente en française (ou dans d’autres langues) :

Par exemple, la lettre e est utilisée 15 fois plus souvent que la lettre de b.

Premières compressions : Morse, avec les lettres les + utilisés : e, a, t (on voit qu’elles ont un plus court symbole) code morse international

Définitions

La compression transforme l’information délivrée par la source numérique
Elimine les redondances ↪ pour minimiser la longueur binaire moyenne d’un code $\overline{L}$

Lettre	A	B	C	D	E	F
Code	0	1	00	01	001	101
Apparition	5	4	3	2	1	1
Probabilité $p$	5/16	4/16	3/16	2/16	1/16	1/16
$l$	1	1	2	2	3	3

Calcul de $\overline{L}=p_{1}l_{1}+p_{2}l_{2}+p_{3}l_{3}+p_{4}l_{4}+p_{5}l_{5}+p_{6}l_{6}$

$\overline{L}= \frac{5}{16}\cdot 1 +\frac{4}{16}\cdot 1 + \frac{3}{16}\cdot 2+\frac{2}{16}\cdot 2+\frac{1}{16}\cdot 3+\frac{1}{16}\cdot 3$

$\overline{L}= \frac{1}{16}(5+4+6+4+6)= \frac{25}{16} \approx$ 1,56 bits / symbole

Symboles	$p(S_{k})$	Code A	Code B	Code C	Code D
$S_0$	0,5	00	0	10	0
$S_1$	0,3	01	1	00	10
$S_2$	0,1	10	00	11	110
$S_3$	0,1	11	11	110	111

Le code A a une longueur moyenne de 2 bits/symboles et est à longueur fixe et c’est un code préfixe

Le code B a une meilleure compression (1,2 bits/symbole) mais est à longueur variable et c’est un code non préfixe (S1 et S3 commencent par le même symbole)

Le code C a une longueur moyenne de 2,1 bits/symbole et est à longueur variable et non préfixe

Le code D a une longueur moyenne de 1,7 bits/symbole est à longueur variable et est préfixe

Information associée à un symbole

Soit A le symbole dont la probabilité d’occurrence est $p_{A}$ . L’information liée à A est :

I_{A}=\log_{2}\left( \frac{1}{p_{A}} \right ) = -\log_2p_{A}

Donc, si A est peu probable, $I_{A} \rightarrow +\infty$ , et si A quasi certain, $I_{A}\rightarrow 0$

Donc, plus $p$ est élevé, plus $I$ sera faible (donc l’information est liée à la rareté d’un symbole)

Symboles	$p(S_{k})$	Code A	Code B	Code C	Code D
$S_0$	0,5	00	0	10	0
$S_1$	0,3	01	1	00	10
$S_2$	0,1	10	00	11	110
$S_3$	0,1	11	11	110	111

$I_{S_{0}}=-\log_{2}(0,5) = -\log_{2}(2^{-1})=1$

$I_{S_{1}}=-\log_{2}(0,3) = 1,74$

$I_{S_{2}}=-\log_{2}(0,1) =3,32 = I_{S_{3}}$

Entropie H : information moyenne liée au code

L’entropie représente la moyenne pondérée de l’information et est définie par :

H = \sum\limits_{k=1}^{Q}p_{k}I_{k}=-\sum\limits_{k=1}^{Q}p_{k}\log_{2}p_{k}

L’unité de H est en bits d’information / symbole transmis, ou en Sh (Shannon)

Les valeurs extrêmes de l’entropie sont :

$H_{min}=0$ pour $p_{k}=1$ (1 seul symbole présent)
$H_{max}=\log_{2}Q$ pour Q symboles équiprobables, donc $p_{i}=\frac{1}{Q} \forall i$

[!quote] Origines de la notion d’entropie

En physique (Boltzmann⁵, 1872), l’entropie mesure le désordre dans un système.

En théorie de l’information (Shannon ⁶, 1948), l’entropie mesure la “quantité d’information” contenue dans un signal :::

Inégalité de Kraft

L’inégalité de Kraft est un résultat fondamental en théorie des codes, c’est une condition nécessaire et suffisante d’existence d’un code déchiffrable et instantané

Un code instantané doit satisfaire cette inégalité :

\sum_{k=1}^{Q}2^{-l_{k}} \leq 1

La réciproque est vraie, si une suite de $l_{k}$ vérifient cette relation, alors il existe un code instantané avec cette distribution des longueurs

Autres définitions

Symboles	$p(S_{k})$	Code A	Code B	Code C	Code D
$S_0$	0,5	00	0	10	0
$S_1$	0,3	01	1	00	10
$S_2$	0,1	10	00	11	110
$S_3$	0,1	11	11	110	111

On a : $L_{A}= 2$ bits/sym, $L_{B}=1,2$ bits/sym, $L_{C}=2,1$ bits/sym, $L_{D}=1,7$ bits/sym. Codes non préfixes donc inutilisables pour appliquer l’inégalité de Kraft

On calcule l’entropie : $H = 1,69$ bits/symboles

Donc on a bien : $1,69+1 \ge \overline{L} \ge 1,69$ , et on voit que $L_{D}$ est plus proche de $H$ que $L_{A}$ , donc le code D apporte une meilleure compression

Codages de compression statistique

Introduction

Compressions avec algorithmes statistiques

Pour les données aléatoires ↪ sans corrélations entre elles
basées sur les fréquences d’apparition des symboles
attribuer un code binaire d’autant plus court que le symbole apparaît souvent et inversement (appelé VLC⁷) ↪ donc code à longueur variable

Deux algorithmes : de Shannon-Faro et Huffman

Codage de Shannon-Fano

Le codage de Shannon-Fano est un algorithme simple avec des performances élevées. Mais c’est un code sous-optimal (pas optimisé dans le sens statistique) en terme de longueur moyenne des mots code. Donc, pour assurer l’optimalité : code de Huffman

Codage de Huffman

Ce codage a été créé par David A. Huffman, et est par exemple utilisé pour le format .zip

L’idée de ce code est de coder ce qui est fréquent sur peu de place et coder en revanche sur des séquences plus longues ce qui revient rarement. Ce code utilise une création d’un arbre, et l’encodage du texte se fait selon l’arbre.

Illustration d’un arbre du code de Huffman : résultat d'un arbre pour coder 5 caractères

Codages par substitution

Précédemment on a vu les compressions avec des algorithmes statistiques.

Les compressions avec des algorithmes dynamiques se font avec :

des données redondantes : certaines séquences de symboles se répètent plus ou moins régulièrement ↪ leur attribuer un code spécifique bien plus court ⇒ réduire la taille occupée
RLE et compression par dictionnaire Lempel et Ziv

Codage RLE 8

Codage basé sur la redondance

Compression par dictionnaire Lempel et Ziv

Fonctionne sur le même principe que le RLE

Vient de Jacob Ziv and Abraham Lempel (1970) ↪ LZ77, LZ78 et LZW

Conclusion

Plusieurs critères pour qualifier la compression :

taux de compression
avec ou sans perte (= destructive ou non)
temps de compression

Tout algo de compression possède un algo de décompression correspondant

Compression de données sans perte

réduit la taille des données en supprimant les redondances
processus réversible, valable pour tout type de données, gain théoriquement assez faible
compress d’UNIX et format GIF⁹ ↪ Algo LZW (plus efficace que l’algo RLE pour BMP)
PNG et gziputilisent l’algo Deflate = combinaison des algo LZ77 et Huffman

Compression avec perte

Compression dégradante, suppression des informations “peu significatives, inutiles”
Compression non réversible, gain de compression très grand

Format JPEG[^10] : formules mathématiques complexes ↪ enlever les détails non visibles à l’oeil (même principe pour les mp3) [^10] : Joint Photographic Expert Group

Format MPEG[^11] : compression de la vidéo ↪ détecter des corrélations dans les données (informations redondantes)

corrélations spatiales : des formes qui se répètent, des motifs
corrélations temporelles ↪ éléments semblables d’une image à l’autre (détection de mouvement) [^11] : Moving Photographic Expert Group

American Standard Code for Information Interchange ↩
International Organization for Standardization ↩
Universal Transformation Format ↩
bit de poids fort : non utilisé en ASCII ↩
ardent défenseur de l’existence des atomes père de la physique statistique ↩
mathématicien, ingénieur électricien, cryptologue père de la théorie de l’information ↩
Variable Length Code ↩
Run Length Encoding ↩
Graphic Interchange Format ↩

Huffman	Shannon-Fano
Addition des probabilités	Division des probabilités
Commence par les plus petites probas	Commence par les plus grandes probas

# Codage et Compression

Codage de caractères

Introduction

Code ASCII 1

Autre codage de caractère (UTF-8)

ISO 2 8859

Unicode (1987)

UTF-8

Compression

Introduction

Définitions

Information associée à un symbole

Entropie H : information moyenne liée au code

Inégalité de Kraft

Autres définitions

Codages de compression statistique

Introduction

Codage de Shannon-Fano

Codage de Huffman

Codages par substitution

Codage RLE 8

Compression par dictionnaire Lempel et Ziv

Conclusion

Compression de données sans perte

Compression avec perte

# Codes détecteurs et correcteurs d'erreurs

# Nombres complexes

# Codage et Compression

ISO2 8859

ISO 2 8859