Vidéo

Réalisateur vidéo

Le terme vidéo désigne à la fois l'ensemble des techniques permettant la constitution d'un signal électrique représentant des images animées et la restitution de celles-ci ainsi que ce signal lui-même. Le signal vidéo se caractérise par différents paramètres normalisés : cadence image / trame, résolution, standard couleur éventuellement associé, composition analogique ou numérique, format d'image, données associées...

Le mot « vidéo » provient du latin « video » signifiant « je vois », apocope de vidéophonie ou de vidéogramme. Le substantif vidéo s'accorde en nombre mais cependant, l'adjectif reste toujours invariable. Selon les rectifications orthographiques du français en 1990, l'adjectif suit désormais la règle générale et s'accorde dès lors, en nombre.

Différente formules définissent le signal vidéo, en fonction de ses caractéristiques électroniques et notamment pour définir son type d'exploitation. Pour le mode analogique et la vidéo en noir et blanc ou en couleurs, Vidéo composite, Vidéo composante, RVB, SRGB, S-Video, YCbCr, YIQ, YUV, YDbDr ou encore YPbPr.

Dans l'univers numérique, la vidéo se caractérise par d'autres normes et paramètres définissant l'échantillonnage, le débit de données, la résolution, le codage, le type d'algorithmes de compression, etc. La norme MPEG ainsi que diverses autres spécifications d'exploitation ou de connectique comme le format HDMI, notamment, peuvent lui être appliquées.

Principes techniques en vidéo analogique

Balayage

Deux types de balayage électroniques peuvent s'appliquer pour un signal vidéo. Historiquement, le plus ancien appliqué en télédiffusion est dit « entrelacé » et celui plus particulièrement adapté à l'univers vidéo informatique est de type « progressif ».

Balayage par entrelacement

L'image affichée par un téléviseur à tube cathodique ou un écran vidéo de type analogique exploite une succession de balayages linéaires, partant du haut à gauche de l'écran et finissant en bas à droite. Aux origines de la télévision, la performance des éléments phosphorescents du tube est limitée et la bande passante disponible pour la télédiffusion, significativement limitée. Le plus souvent, on observe un phénomène de scintillement, perçu par l'œil humain selon la cadence 25 Hz ou 30 Hz. La solution la plus simple pour accélérer la cadence de balayage impose également d'augmenter la cadence des images, ce qui est coûteux en bande passante pour la retransmission. Une solution plus astucieuse consiste à omettre une ligne sur deux, pour chaque image à afficher, permettant ainsi de doubler la cadence de balayage, tout en conservant la même bande passante. Ainsi, une première passe affiche toutes les lignes impaires en deux fois moins de temps que pour une image entière et la seconde passe affiche les lignes manquantes paires : le principe du mode entrelacé. Le même nombre de lignes composant l'image est respecté et l'écran est balayé deux fois par le faisceau cathodique pour afficher chaque image. Le terme « trame » (« field » en anglais) désigne une passe de balayage, soit le signal d'une « demi image ». Une image pleine (« frame » en anglais) est donc constituée de deux trames, puisqu'il faut deux balayages pour composer chaque image affichée à l'écran en mode entrelacé.

La caméra ou la source d'images vidéo dont le fonctionnement est précisément adapté au mode entrelacé du même type de téléviseur, exploitent le même mode de balayage. Chaque trame ou demi image n'affiche pas le même contenu car il est décalé dans le temps. Si un sujet se déplace très rapidement entre l'intervalle de deux trames, il occupe une position différente sur chacune des deux trames. Lors d'un arrêt sur image au cours d'un montage vidéo analogique, le phénomène de zigzag peut apparaître lors de l'affichage des deux trames en image pleine. Le problème est totalement résolu à partir des années 1970 dans les studios de télévision professionnels avec l'utilisation de circuits de compensation et correcteur de base de temps ou TBC.

Balayage progressif

Lorsque l'affichage n'est pas entrelacé et que chaque image vidéo est complète ou pleine, il s'agit du mode balayage progressif. À partir de la fin des années 1980, ce mode d'enregistrement est exploité pour les vidéos tournées en HD TV ou en D-cinéma destinés à être transférés et projetés en 35 mm.

Selon les zones géographiques, la cadence 25 ou 30 images progressives 25p, 30p ou la cadence doublée 50p / 60p est exploitée par les caméras.

Les normes vidéo et télévisuelles internationales

Carte mondiale de répartition par pays, du format de télévision et vidéo analogique, caractérisé par la définition et la fréquence du courant électrique local. Répartition en vigueur à partir de 1985. À ne pas confondre avec la norme de télédiffusion ou avec le standard couleur NTSC, PAL ou SÉCAM. Voir Fréquences des canaux de télévision

Historiquement, le signal vidéocomposite exploité pour la télévision connaît de multiples variantes durant le XXe siècle. Deux formats principaux subsistent à compter des années 1980 : le 525 lignes et le 625 lignes. Chaque norme peut être associée à un standard couleur combiné dans le signal vidéocomposite.

Carte mondiale de répartition par pays, des normes de télédiffusion analogique terrestre, symbolisées par une lettre. À ne pas confondre avec le standard couleur NTSC, PAL ou SÉCAM. Voir Fréquences des canaux de télévision

Normalisation UIT-ITU :
A = 405 lignes - Royaume-Uni (1936-1985)
B = 625 lignes - (Europe) EBU-UER, Asie, Afrique, Australie (1950-)
C = 625 lignes - Belgique, Italie, Hollande, Luxembourg - VHF - (1953-1978)
D = 625 lignes - Australie, Outremer, Europe de l'Est, Chine (1948-)
E = 819 lignes France / Monaco / Vatican (1948-1984)
F = 819 lignes Belgique / Luxembourg (1953-1983)
G = 625 lignes (Europe) EBU-UER, Asie, Afrique (1961-)
H = 625 lignes (Europe) Belgique, Pays de l'Est, Malte (1961-)
I = 625 lignes - Irlande, UK, Hong Kong, Macao, Falkland et Afrique du sud (1962-2002)
J = 525 lignes - Japon - Asie (1950-2011)
K/K1 = 625 lignes Australie, Outremer, Europe de l'Est, Chine (1961-)
L = 625 lignes France, Monaco, Luxembourg (1961-2011)
M = 525 lignes - Amérique, Asie (1941-2015)
N = 625 lignes - Amérique du Sud (1951-)

Les standards de diffusion couleur

Associés aux normes de télévision, historiquement, trois standards couleurs analogiques apparaissent : le NTSC, le SECAM puis le PAL.

Standards vidéo analogiques à travers le monde

NTSC
PAL
SECAM
pas d'information

Depuis les origines de la télévision en noir et blanc, seule la luminance définit l'image par un certain nombre de points horizontaux et aussi par trois facteurs de nuance de gris, ainsi que la cadence trame / ligne.

Lorsque la télévision couleur fait son apparition dans les années 1950-1960, les téléviseurs noir et blanc sont censés rester compatibles avec les signaux diffusés et ainsi, restituer une image satisfaisante. Le signal de luminance doit être préservé et un signal complémentaire que le téléviseur noir et blanc ne doit pas détecter est ajouté; en vertu de la compatibilité ascendante ou rétro compatibilité.

Selon les principes optiques de la couleur additive, les deux différences de couleur primaires Rouge et Bleu (R et B) où R'-Y et B'-Y, le symbole "prime" signifiant que les signaux subissent une correction propre à une courbe de gamma. Cette subtilité est censée corriger, à l'époque, un problème de mauvaise linéarité de restitution des tubes cathodiques afin, qu'en combinant le signal couleur avec la luminance, les informations des teintes verte soient correctement préservées et restituées.

Pour retransmettre ces deux signaux couleur complémentaires, un conflit de standard se fait jour ; tous les pays n'adoptent pas la même solution électronique pour télédiffuser les signaux de chrominance.

Aux États-Unis, en Amérique du nord et d'autres pays asiatiques, le NTSC exploite le changement de phase, uniquement sur l'une des différences de couleur. Ce premier système mis en exploitation accuse une certaine diaphotie lors de la télédiffusion, phénomène corrigé en vidéo composite ainsi que par son concurrent plus récent, le standard SECAM français.

En France, en Afrique francophone et dans les pays d'Europe de l'Est, le SECAM (Séquentiel de Couleur A Mémoire) exploite la transmission alternée de l'information rouge et bleu grâce à un composant mémoire.

Le reste du monde exploite le standard PAL Phase Alternating Line, lequel distingue des deux différences retransmises simultanément mais en exploitant des phases distinctes, pour chaque donnée de couleur.

Le signal de chrominance (NTSC, SECAM ou PAL) est ensuite combiné dans une sous-porteuse avec le signal vidéo Y (luminance, signal noir et blanc).

Le nombre de lignes, la cadence de balayage, le type de modulation positive ou négative à l'émission, font partie des normes de télévision suivant chaque zone géographique et ne doit pas être confondu avec les standards vidéo couleur (PAL, SECAM, MESECAM et NTSC).

Le capteur optique

Les premières caméras fonctionnent sur le même principe que les téléviseurs à tube cathodique en analysant l'image formée par l'objectif à l'aide d'un tube de caméra dont le fonctionnement est proche de celui de la cellule photo électrique. À partir de la fin des années 1970, les caméras vidéo commencent à être dotées d'un capteur optique de type CCD ou CMOS.

Définition de l'image et fréquence de balayage

Format et définition (anglicisme "résolution") d'image.

Différents formats d'image vidéo définissent principalement la fréquence de balayage vertical de l'image.

405 lignes 50 Hz (standard anglais abandonné) noir et blanc
525 lignes 60 Hz : résolution 4/3 utile = 720 x 480 (standard américain) couleur NTSC et PAL-N
625 lignes 50 Hz : résolution 4/3 utile = 768 x 576 (standard européen) couleur PAL, SECAM et NTSC-4.43
819 lignes 50 Hz : résolution 4/3 utile = 1024 x 768 (standard français abandonné) noir et blanc

Il existe une différence entre le nombre de lignes composant l'image et le nombre de lignes affichées. Une différence de 49 lignes en 50 Hz et de 45 lignes en 60 Hz apparait. Ces lignes « perdues » pour l'image vidéo sont toutefois nécessaires ; elles représentent le délai pour que le faisceau d'électrons balayant le tube cathodique puisse remonter du bas de l'image vers le haut. Cette caractéristique n'existe pas avec les écrans LCD ou les dalles plasma mais cet écart subsiste pour assurer la compatibilité ainsi que l'exploitation de certains services. Les lignes libérées sont ainsi mises partiellement à profit. On y trouve éventuellement les signaux de télétexte, de sous-titrage ainsi que le time-code utilise pour les équipements vidéo professionnels.

On distingue deux fréquences de balayage de l’image :

le balayage vertical, s'effectuant du haut vers le bas de l'écran, lequel sert à composer la trame ou l'image complète. Il s'effectue 25, 30, 50 ou 60 fois par seconde ;
le balayage horizontal, s'effectuant de gauche à droite pour chaque ligne composant l'image. La fréquence de balayage horizontal est donc égale à la fréquence verticale, multipliée par le nombre de lignes et divisée par deux à cause de l'entrelacement.

F_{h}={\frac {F_{v}N}{2}}

Ce qui donne les valeurs suivantes :

Fh(50 Hz) = 50 x 625 / 2 = 15 625 Hz
Fh(60 Hz) = 60 x 525 / 2 = 15 750 Hz

Ce résultat n'est pas dû au hasard. Si les fréquences horizontales sont presque les mêmes en 50 Hz et en 60 Hz, cette formule permet d'exploiter des circuits électroniques simplifiés pour effectuer simultanément le balayage horizontal et ainsi réaliser des économies lors de la fabrication des équipements.

Couleur

Les spécialistes connaissent les particularités spectrales et limites du cerveau et de l'œil humain, lequel marque une très nette préférence optique pour certaines couleurs. Le spectre chromatique de l'œil exploite trois couleurs primaires. Cela permet par mélange additionnel ou soustractif, de recréer à peu près toutes les autres couleurs et teintes du spectre visible. Le cinéma en couleur exploite les mêmes principes en utilisant sur la pellicule, des émulsions à plusieurs couches, dont chacune est sensible à une couleur primaire.

Les écrans cathodiques constituant une source lumineuse, les ingénieurs choisissent la synthèse additive composée de rouge, vert et bleu à l'inverse de la synthèse soustractive composée de cyan, magenta et jaune comme en imprimerie. Le rouge, vert et bleu sont les couleurs primaire de cette synthèse additive. Le cyan, magenta et jaune sont les couleurs primaire de la synthèse soustractive.

La prise de vue en couleur s'effectue selon un prisme optique qui répartit la lumière sur trois capteurs, devant lesquels il y a respectivement un filtre rouge, vert et bleu. Ainsi, chaque capteur n'enregistre que les informations de lumière concernant une couleur. Il suffit ensuite d'enregistrer puis restituer les 3 composantes RVB sur un moniteur couleur acceptant les trois entrées RVB : il y a trois signaux à la place d'un seul. Il faut non seulement tripler toutes les liaisons câblées entre les différents équipements, mais aussi tripler les pistes d'enregistrement sur un magnétoscope, tripler tous les équipements de production, jusqu'aux équipements de diffusion hertzienne. Le défi était donc de créer un signal unique englobant trois informations différentes, et qui ne devaient pas se mélanger avant le traitement par le poste de réception.

Le défi était aussi de conserver la totale compatibilité avec les postes noir et blanc encore très présents dans les foyers. Les chercheurs travaillèrent donc dans le but de créer un signal vidéo englobant du rouge, du vert, du bleu, ainsi que du noir et du blanc dans le même « tuyau », sans que ceux-ci se mélangent.

Il était interdit d'avoir une caméra noir et blanc ET une caméra couleur. Il fallait donc fabriquer du noir et blanc à partir des trois composantes RVB. Se basant sur les sensibilités de l'œil aux différentes couleurs, les spécialistes prirent 59 % de vert, 30 % de rouge et 11 % de bleu. Ils venaient d'inventer un nouveau terme : la luminance (Y). Les téléviseurs noir et blanc pourraient donc voir en noir et blanc des images issues de caméra couleur. Comment maintenant rajouter à ce Y les informations de couleurs permettant de retrouver notre RVB original ? Puisqu'il y avait déjà de la lumière (le Y), il fallait « colorier » ce noir et blanc avec des informations de couleurs qui ne contenaient, elles, aucune valeur de lumière, mais uniquement des indications de teinte et de saturation.

Une fois d'accord pour ce noir et blanc colorisé, il fallut trouver l'astuce qui permettrait de transmettre la lumière (Y) et la chroma (C). Des procédés électroniques aux très longs noms virent le jour. Il y a par exemple «modulation d'amplitude en quadrature de phase, à sous-porteuse supprimée. Ces solutions se devaient à la fois de mélanger deux signaux de manière à pouvoir les discriminer à la réception, mais aussi de n'avoir aucune interférence visible dans le spectre du signal noir et blanc.

Ces solutions furent trouvées et appliquées. Ainsi sont nés le NTSC aux États-Unis, le SECAM en France, et le PAL en Allemagne. Le codage permet de transformer du RVB en signal couleur compatible noir et blanc. Le NTSC, le SECAM et le PAL sont trois types de codages différents incompatibles entre eux. Passer d'un type de codage à un autre s'appelle le « transcodage ».

Aucune des trois solutions n'est néanmoins transparente, tant s'en faut. Un signal transcodé souffre d'artefacts plus ou moins visibles selon le codage.

Un signal vidéo codé de la sorte est dit signal composite, car il contient plusieurs sources de nature différente. Les standards d'enregistrement vidéo utilisant le composite vont de l'U-matic / U-matic SP au VHS en passant par le 8mm ou Vidéo 8, le Betamax, le VCR ou encore le V2000. Au vu des dégradations causées par le codage, il devenait urgent de s'en absoudre en production.

Au début des années 1980, Sony mit au point un format vidéo à composantes séparées, constitué de plusieurs signaux distincts, véhiculés par des câbles distincts : le Betacam / Betacam SP. Pour rester compatible avec le noir et blanc, la société évita soigneusement le RVB, et choisit naturellement un format comportant le Y, plus des informations de chrominance véhiculées par 2 signaux : U et V (appelés aussi Cr et Cb).

Ces composantes sont reliées par des formules U = R - Y et V = B - Y, où Y = 0,30R + 0,59V + 0,11B (les coefficients étant différents selon le codage utilisé). Cette transformation de RVB en YUV s'appelle matriçage. Le matriçage est une opération plus simple que le codage qui ne génère pas de dégradation, tout en offrant l'avantage de la compatibilité Y.

Quelques années plus tard, un format grand public apparut : le S-Vidéo ou Y/C, où la luminance Y et la chrominance C (codée en NTSC, PAL ou SECAM) étaient séparées (S-VHS, Hi-8, Super-Betamax). Ce format est de qualité meilleure qu'un format composite, puisque la chrominance n'empiète plus sur la bande de fréquences de la luminance, ce qui pouvait amener à des artefacts colorés sur des détails fins. La résolution horizontale de ces formats pouvait donc être quasiment doublée (400 points/ligne au lieu de 240-250).

L'acquisition vidéo

Introduction

Mémento CCIR 601
	Luminance Y	Chrominance Cr ---Cb
Bande passante	5,75 MHz	2,75 MHz
Fréquence d'échantillonnage	13,5 MHz	6,75 MHz
Nombre d'échantillon par ligne	864	432 ---432
Nombre d’échantillons utiles par ligne	720	360 ---360
Structure d'échantillonnage	Deux trames entrelacées
Quantification 8 bits	220 niveaux utiles	225 niveaux utiles
Quantification 10 bits	880 niveaux utiles	900 niveaux utiles
Rapport signal sur bruit	qualité 8 bits : 56 dB qualité 10 bits : 68 dB
Codage	Binaire	Binaire décalé
Débit brut	8 bits : 216 Mb/s 10 bits : 270 Mb/s
Débit net	8 bits : 166 Mb/s 10 bits : 207 Mb/s

Le procédé de l’acquisition vidéo analogique et de sa conversion en numérique peut s’assimiler au passage du langage oral au langage écrit. Pour prendre en note le discours oral d’une personne, cette dernière ne doit pas parler trop rapidement, sinon il devient difficile d’écouter et de transcrire simultanément. La personne pourrait ralentir son débit de parole mais si l’on assimile ces paroles avec le signal vidéo analogique, on comprend aisément que le débit ne peut pas être ralenti. On procède donc à l’échantillonnage du discours (avec ou sans compression), c’est-à-dire que l’on ne saisit que des « morceaux » de message pour les retranscrire par la suite. La précision de la retranscription dépend directement du nombre d’échantillons de discours prélevés.

Pour la vidéo, le phénomène est identique : il est nécessaire avant toute chose de connaître le signal et de savoir quels sont les signaux à numériser.

Historique

L’histoire du numérique dans la vidéo commence véritablement de 1972 à 1982. À l’origine équipements de synchronisation, les appareils se sophistiquèrent avant d’entrer dans le milieu professionnel. Dès lors, les industriels prirent conscience de l’avènement de ce nouveau phénomène et présentèrent des normes en matière de numérisation. Une certaine anarchie numérique régna alors sur le marché ce qui força la main au CCIR (Comité consultatif international des radiocommunications) à normaliser un format vidéo en composantes numériques compatible dans le monde entier : cette norme c'est le CCIR 601. Elle spécifie les paramètres de codage de signaux à numériser (échantillonnage, quantification…). Dès lors les innovations ne cessèrent de s’enchaîner pour permettre aujourd'hui à la vidéo numérique de se généraliser dans les centres de production, chaînes TV et régie de post-production pour assister le montage vidéo.

Pourquoi un codage des composantes ?

Le signal vidéo numérique devait, sans aucun doute, être identique pour tous les pays : l’idée était de numériser des données communes aux systèmes 625 lignes (PAL, SECAM) et 525 lignes (NTSC). Le CCIR a donc décidé de numériser de façon séparée les signaux de luminance (Y) et de chrominance (Cr ; Cb). Un système basé sur le codage numérique des composantes vidéo exclut tous les problèmes qu’auraient pu engendrer un codage de signal vidéo composite et permet une compatibilité à échelle mondiale. Ce système devrait donc apparaître comme étant l’accessoire principal d’un développement de nouveaux équipements, mais aussi et surtout d’un échange international de données, constituant la base de l’audiovisuel : la communication.

L'échantillonnage

L’échantillonnage d’un signal, c'est le découpage en tranches temporelles ou « échantillons » de ce dernier. Il est directement suivi de la quantification qui consiste à convertir la valeur de l'échantillon en valeur numérique représentée par un nombre entier (Cf. ci-dessous). Il est donc nécessaire que le rythme de découpage (fréquence d’échantillonnage) soit élevé pour pouvoir retranscrire les variations du signal les plus brèves, car si l’intervalle de temps entre deux échantillons consécutifs est supérieur au temps de la variation la plus rapide du signal d’origine, cette dernière se trouvera perdue et ne sera pas prise en compte dans le signal numérique.

Par conséquent, pour échantillonner un signal, en préservant son information, il est nécessaire de connaître la fréquence la plus élevée à laquelle il est susceptible de varier. Le théorème d'échantillonnage de Nyquist-Shannon établit qu’« un signal dont le spectre est limité à la fréquence Fmax est entièrement défini par la suite de ses échantillons prélevés à des intervalles de temps réguliers de valeur « T » inférieurs à 1/(2 Fmax).

Par conséquent, la fréquence d’échantillonnage doit être ƒ_e > 2 Fmax pour respecter la représentation d’origine. Si cette condition n’est pas remplie, les composantes spectrales répétitives du signal échantillonné ne sont pas assez espacées et se chevauchent. La zone de repliement, appelée aussi « zone d’aliasing », donne naissance à une fréquence parasite se traduisant par un effet de moiré sur l’image. Pour pallier ce problème, un filtre passe-bas (filtre anti-aliasing) est disposé en amont de la conversion. Ce filtre à pente raide rejette les fréquences du signal analogique d’entrée qui sont supérieures à 1/2 ƒ_e.

Le signal vidéo de luminance possède une bande passante d’environ 6 MHz. Pour que ce signal soit correctement numérisé, sa fréquence d’échantillonnage doit respecter les critères de Shanon et Nyquist, soit :

ƒ_e(Y) > 6 x 2 = 12 MHz

Cependant, pour être utilisée au niveau mondial, ƒ_e(Y) doit être multiple commun des fréquences lignes des systèmes à 525 et 625 lignes, soit 15 625 et 15 734,2 Hz. Le CCIR a donc retenu la fréquence d’échantillonnage suivante : ƒ_e(Y) = 13,5 MHz. Cette fréquence est égale à 864 fois la fréquence ligne des systèmes à 625 lignes et 858 fois celle des systèmes à 525 lignes (une ligne active contenant 720 échantillons).

Pour les signaux de chrominance, on peut réaliser sans gêne visuelle un Sous-échantillonnage, car l’être humain qui est moins sensible aux variations de couleur qu’aux variations d’éclairement. Concrètement, le contour d'un objet paraîtra net si la luminance varie rapidement, mais il n'est pas indispensable que la chrominance varie aussi rapidement. La bande passante pour les signaux de chrominance est d’environ 3 MHz. Le CCIR a décidé de les échantillonner à une fréquence deux fois moindre que celle de la luminance, soit :

ƒ_e(Cr) = ƒ_e(Cb) = 6,75 MHz.

Pour ces signaux, il n’y aura donc que 360 échantillons par ligne active.

Ces fréquences d’échantillonnage déterminées par le CCIR s’apparentent aux chiffres 4, 2 et 2. Pour un groupe de 8 pixels (4 pixels/ligne et sur 2 lignes), le chiffre 4 représente le nombre de valeurs indiquées par ligne pour la luminance (13,5 MHz), 2 le nombre de pixels possédant une valeur propre chrominance (6,75 MHz = 13,5/2) sur les lignes paires, et le dernier 2, idem pour les lignes impaires. C’est ainsi que la norme CCIR 601, née de ces études, prit le nom courant de norme 4:2:2.

La périodicité deux trames permet trois types de structures d’échantillonnage : orthogonale, quinconce ligne et quinconce trame. C’est la structure orthogonale qui a retenu l’attention dans la norme 4:2:2. Dans cette structure, la phase de l’horloge d’échantillonnage est identique pour chaque ligne et chaque trame. Les échantillons sont donc situés aux mêmes emplacements d’une ligne à l’autre et d’une trame à l’autre.

La quantification

Chaque échantillon est « pesé », tout comme un aliment, afin d’en déterminer son poids. En numérique, ce pesage est appelé quantification. Il s’effectue, pour reprendre notre analogie, à l'aide d'une balance à deux plateaux : dans un des plateaux se trouve l’échantillon à peser, dans l’autre les poids nécessaires pour trouver l’équilibre. La précision du pesage dépend donc de la valeur du plus petit poids disponible. En vidéo, le poids de l’échantillon est la tension du signal électrique à numériser et la balance un quantificateur. Cet appareil convertit les tensions en valeurs numériques, exploitables par une station de montage virtuelle, par exemple.

Cependant, la quantification ne peut pas représenter parfaitement la tension de l'échantillon du signal analogique d'origine. En effet, un signal analogique (représenté par un nombre réel) peut prendre une infinité de valeurs, or il va être converti en un signal formé d'un nombre fini de valeurs numériques « N » dont chacune est codée sur « n » bits (c'est-à-dire sous forme d'un nombre entier dont la valeur maximale est limitée). Il y aura donc nécessairement, après quantification, une erreur d'arrondi. La précision du signal converti sera donc liée au nombre de valeurs disponibles pour traduire chaque échantillon. L'intervalle situé entre deux valeurs est noté « q » et se nomme « pas de quantification ». À chaque instant « t », l'amplitude du signal se trouvant à l'intérieur d'un échelon est remplacé par la valeur de l'échelon le plus proche. On comprend aisément que plus les pas de quantification sont petits, plus ils sont nombreux sur une plage donnée et donc que plus la précision du signal quantifié est importante (le taux d'erreur de quantification étant déterminé par la relation Terr = 1/2n).

La quantification du signal vidéo est uniforme, linéaire et s'effectue de façon séparée sur Cr et Cb. Initialement fixée sur 8 bits, la quantification du signal vidéo de la norme 4:2:2 est passée à 10 bits. En effet, une quantification sur 8 bits permet de disposer de 256 niveaux numériques (dont 220 utiles pour représenter les niveaux de gris) ce qui n'est parfois pas suffisant. Pour un dégradé de gris du blanc au noir, par exemple, un « effet d'escalier » apparaît après numérisation. De plus, le rapport S/B (signal à bruit) d'une quantification sur 8 bits est de 56 dB alors que les caméras d'aujourd'hui atteignent les 60 dB. Le C.C.I.R. a donc choisi de quantifier le signal vidéo sur 10 bits, ce qui donne 1 024 niveaux (dont 880 utiles) soit 4 fois plus qu'une quantification sur 8 bits, et avec pour rapport S/B 68 dB.

Le signal de luminance est toujours positif et ne pose pas de problèmes à numériser, en revanche les signaux de chrominance sont bipolaires. On a donc dû fixer une valeur pour le signal nul : les valeurs au-dessus correspondant à un signal positif et celles au-dessous à un signal négatif. Cette « valeur zéro » a été fixée par le C.C.I.R. à 512 (à mi-chemin entre 0 et 1024).

Le codage de canal

Une fois échantillonné et quantifié, le signal vidéo doit être codé afin d'optimiser son stockage ou sa transmission. Différentes formes de codage existent et présentent chacune leurs avantages et inconvénients. Le but de la manœuvre est donc de choisir le code le plus adapté à l'utilisation. Pour cela, plusieurs codes sont à disposition :

le code NRZ (Non Retour à Zéro) : une donnée binaire « 1 » engendre un niveau haut de signal et une donnée « 0 » un niveau bas ;
le code NRZI (Non Retour à Zéro Inversé) : une donnée binaire « 1 » engendre une transition au milieu de la demi-période d'horloge, une donnée « 0 » n'a aucun effet. Ce type de codage est utilisé en vidéo dans les liaisons série 4:2:2 car il permet de transmettre avec le signal vidéo son signal d'horloge ;
le code Biphase Mark : utilisé pour le signal de LTC des magnétoscopes. Un « 0 » provoque une transition et un maintien du niveau pendant toute la période d'horloge, alors qu'un « 1 » entraîne une transition et un changement de niveau à la moitié de la demi-période d'horloge.

Il existe encore d'autres codes (comme le code Miller ou le code Miller carré) qui ne sont utilisés que dans certains magnétoscopes numériques.

La structure de la ligne numérique

Les lignes analogiques des systèmes à 625 et 525 lignes sont de durées légèrement différentes. Ainsi, la capacité d’une ligne active doit être suffisante pour contenir un nombre suffisant d’échantillons afin de couvrir les lignes des deux systèmes. Le CCIR a choisi 720 échantillons pour le signal de luminance et 360 pour les signaux de chrominance. Ceci est suffisant car les lignes actives analogiques les plus longues sont celles des systèmes à 525 lignes qui nécessitent plus de 710 échantillons pour être totalement analysées. La ligne active 4:2:2 est donc codée sur 1 440 mots (720 x 2). Les signaux permettant de positionner la ligne active numérique sont codés respectivement sur 264 et 24 mots pour les systèmes à 625 lignes et sur 244 et 32 mots pour les systèmes à 525 lignes. Le front avant des impulsions de synchronisation ligne (SAV) détermine l’arrivée du premier échantillon et la référence de temps pour la conversion analogique-numérique. Le front arrière (EAV) en détermine la fin.

Remarques sur la détection et la correction d'erreurs

Le support d’enregistrement (ou le canal de transmission) peut engendrer des erreurs dans le flux de données numériques. C’est-à-dire qu’une valeur binaire peut changer de valeur (un « 0 » devient « 1 » et vice-versa) ou une information peut manquer à un moment donné. Cette erreur peut soit affecter l’image vidéo visible soit les autres signaux vidéo selon les bits qu’elle affecte. Elle peut donc avoir des conséquences plus ou moins importantes d’où l’utilité de les détecter et de les corriger.

La difficulté des systèmes de correction d’erreur réside dans le fait qu’il faut avant tout détecter l’erreur avant de pouvoir la corriger. Pour cela, des données redondantes sont ajoutées lors du codage aux données utiles, selon une loi définie et connue du codeur et du décodeur. À chaque fois que cette loi n’est pas vérifiée au décodage, un processus de correction est déclenché. Si le manque d’information est tel que même les données redondantes ne suffisent pas à retrouver le signal d’origine, des processus de compensation, qui consistent à calculer la valeur moyenne entre échantillons proches, sont exécutés. Le signal ainsi corrigé peut enfin être utilisé par les différents équipements numériques.

Rapport largeur / hauteur

Historiquement, la télévision a été mise au point sur des écrans au format 4/3 (soit un rapport de ^1.33⁄₁). Ce format a été choisi car il était celui utilisé par le cinéma lors de la mise au point de la télévision, dans les années 1940. Depuis, le cinéma a évolué, avec des procédés tels que le cinémascope et autres panavision basés sur l'utilisation d'un objectif anamorphoseur, les formats courants au cinéma sont le ^1.85⁄₁ et le ^2.35⁄₁. Lorsqu'il a été décidé de passer la télévision vers un format panoramique, c'est le format 16/9 qui a été choisi. Il correspond à un rapport d'image de ^1.77⁄₁, assez proche de 1,85 et reste un bon compromis entre le 1,33 (barres noires à gauche et à droite) et le 2,35 (barres noires en haut et en bas). Les puristes conservent les barres noires pour voir l'intégralité de l'image, tandis que ceux qui préfèrent profiter du plein écran utilisent le zoom du téléviseur mais perdent par conséquent une partie des bords de l'image.

Formats et standards vidéo

Enregistrement analogique

VHS
VHS-C
S-VHS
8mm ou Video 8
Hi-8
Betacam / Betacam SP
U-matic / U-MATIC SP
Betamax
V2000
Bande 1 pouce
Bande 2 pouces
BVU / BVU SP

Enregistrement numérique

AV1
Digital8
DV ou Digital Video
DVCAM
Betacam SX
Digital-S
IMX
XDCAM
DVCPRO
Betacam numérique
HDV
XDCAM HD
DVCPRO-HD
HDCam
DVD
AVCHD
D1
HDCAM SR

Standards de télédiffusion vidéo

PAL
SECAM
NTSC
MAC
HD TV

Vidéo et informatique

Les affichages informatiques disposent de résolutions spécifiques et de modes de balayage tout aussi spécifiques. Les micro-ordinateurs 8 bits et les premiers 16 et 32 bits étaient destinés à un branchement sur un appareil de télévision, leur sortie vidéo était donc en 740/50 ou 525/60. Les normes utilisées sur PC sont différentes :

CGA 320×200×4c ou 640×200×2c à 60 Hz ;
Hercules 720x348 (N/B) à 72 Hz (?) ;
EGA 640×350×16c à 60 Hz ;
VGA 640×480×16c à 60 Hz.

Les autres modes d'affichage ne sont pas vraiment normalisés. Les formats d'image standards sont déclinés en un nombre variable de couleurs (de 16 à 4 294 967 296 et plus) :

640 × 480
800 × 600
1 024 × 768
1 152 × 864
1 280 × 960
1 280 × 1 024
1 600 × 900
1 600 × 1 200
1 920 × 1 080
2 048 × 1 536
2 560 × 2 048

La fréquence de balayage est comprise entre 50 Hz et plus de 120 Hz. Tous ces affichages sont à balayage progressif bien que dans les plus hautes résolutions, il soit possible de trouver des modes entrelacés.

C'est à cause des fréquences de balayage différentes qu'il n'est pas possible de brancher un ordinateur directement sur un téléviseur, cela peut même entraîner la destruction du téléviseur. Par ailleurs, un encodeur couleur (PAL, SECAM ou NTSC) est nécessaire pour réaliser un enregistrement vidéo d'une image informatique. C'est pour cela que certains ordinateurs sont dotés d'une sortie vidéo indépendante de la sortie destinée au moniteur.

Logiciel de montage

Notes et références

Annexes

Bibliographie

Jean-Charles Fouché, Comprendre la vidéo numérique : vidéo analogique, vidéo numérique, haute définition, digital cinéma, Internet et réseaux, Nice, Baie des anges, 2007, 244 p. (ISBN 978-2-9524397-6-3).
Philippe Bellaïche, Les secrets de l'image vidéo : colorimétrie, éclairage, optique, caméra, signal vidéo, compression numérique, formats d'enregistrement, formats d'images, Paris, Eyrolles, 2015, 10^e éd., 682 p. (ISBN 978-2-212-14212-9).
Françoise Parfait, Video, un art contemporain, Paris, Éditions du Regard, 2001, 366 p. (ISBN 978-2-84105-133-5).
Marc Marcillac, Le cinéma DV : comment faire du cinéma, Lyon, Aléas, 2004, 108 p. (ISBN 978-2-84301-103-0)
François Luxereau, Vidéo, principes et techniques, Paris, Dujarric, 2005, 175 p. (ISBN 978-2-85947-050-0 et 978-8-594-70506-8)
François Luxereau, Vidéo : l'ère numérique, Paris, Dujarric, 1998, 157 p. (ISBN 978-2-85947-024-1)
Olivier Cotte, La vidéo de A à Z : Réalisez vos films comme un pro!, Ecuelles, KnowWare E.U.R.L, coll. « Compétence micro » (n^o 58), 2007, 95 p. (ISBN 978-2-915605-92-1) et * play.no Site web prochainement 31 mai 2017 TV Norvège