Interlacing/Deinterlacing: Tecnica, Pulldown e Algoritmi
1. PREMESSA
Non sono un tecnico, non sono un esperto, sono solo un utente di questo forum che pian piano si è appassionato alle varie problematiche che interessano la visione e soprattutto la qualità delle immagini mostrate daiTV LCD/Plasma.
Ho così cominciato a raccogliere informazioni sull'interlacing/deinterlacing e mi è venuto in mente di condividerle con gli utenti di AVMagazine, certo che capiscano l’intento, che non è assolutamente quello di fare sfoggio di conoscenza (alla fine dei conti il lavoro è quello di copia e incolla da internet), quanto piuttosto di raccogliere il maggior numero di correzioni/osservazioni possibili, al fine di aumentare tutti assieme l’attendibilità di quanto riportato nelle pagine/post seguenti.
Un grazie in particolare va a (in ordine alfabetico): gamete, jento, kiki76, nenny1978, Pigna Corelli, revenge72, che nel corso dei mesi hanno contribuito a migliorare, aggiornare e arricchire il thread.
2. TEORIA E RAGIONI DELL'INTERLACCIAMENTO/DEINTERLACCIAMENTO DEI SEGNALI
3. STANDARD: RISOLUZIONI e FREQUENZE
4. INTERLACING/DEINTERLACING, CADENZE e PULLDOWN
5. FAQ
6. LOG
2. TEORIA E RAGIONI DELL'INTERLACCIAMENTO/DEINTERLACCIAMENTO DEI SEGNALI
Nonostante sia una tecnica (o problema?) che nasce praticamente assieme alla stessa TV, l’interlacciamento dei segnali e il relativo deinterlacciamento – spesso mal eseguito anche su TV di fascia alta, se non altissima - sono tutt’oggi la causa del decadimento della qualità delle immagini quando con TV LCD o Plasma si visualizzano segnali che non nascano direttamente come progressivi.
2.1 Definizione Matematica (Teorema di partizione di Fraenkel)
Dal punto di vista puramente matematico, il teorema di partizione di Fraenkel definisce l’interlacciamento/deinterlacciamento come il metodo che consiste nel creare un nuovo flusso di dati partendo da due flussi separati, ognuno dei quali abbia una sequenza scandita da un intervallo temporale costante; oppure al contrario costruire due flussi di dati ognuno dei quali abbia una sequenza scandita da un intervallo temporale costante a partire da uno unico.
2.2 Definizioni e tipi di segnali: interlacciare/to, deinterlacciare/to, progressivo
Immaginiamo innanzitutto di suddividere un determinato fotogramma in una serie di linee/fettine orizzontali:
- Interlacciare indica la suddivisione di un determinato fotogramma (Frame) in due parti (semiquadri o field), uno contenente le sole linee pari (detto per l’appunto field pari) e l’altro contenente le sole linee dispari (field dispari)
- Deinterlacciare significa fare il processo inverso, ovvero partire dai semiquadri in cui l’immagine era stata inizialmente suddivisa per ricostruire il frame originale.
- Progressivo, indica un segnale che contenga, al contrario di uno interlacciato, tutte le linee in contemporaena, senza suddivisione in field.
Nota Bene: TUTTE le TV LCD/PLASMA esistenti sono in grado di “proiettare” solo e esclusivamente immagini in modo progressivo (ovvero di “disegnare” a schermo in contemporanea TUTTE le linee, non alternando campi pari e dispari).
Veniamo quindi al punto: se il segnale dato in pasto alla TV è di natura interlacciata (e così è per tutte le emittenti televisive, anche quelle HD che siano satellitari o digitali terrestri, che trasmettono ad esempio in 1080i), la TV prima di creare l’immagine sullo schermo DEVE deinterlacciarlo, per farlo diventare progressivo.
2.3 Materiale di origine Filmica o Televisiva
Non tutti i segnali interlacciati sono costruiti allo stesso modo. Il modo in cui l’immagine viene acquisita e eventualmente scomposta in field pari e dispari varia fondamentalmente a seconda della sorgente.
Per il momento, tralasciamo volutamente l’argomento frequenze/cadenze, ovvero trascuriamo le frequenze a cui il materiale è filmato e/o riprodotto.
Materiale di origne Televisiva
In un segnale acquisito tramite network televisivo, la stessa sorgente (telecamera), lavora in modo interlacciato, acquisendo alternativamente un field pari e uno dispari.
Immaginiamo un esempio limite: telecamera fissa che riprende un soggetto in movimento ad altissima velocità: in un determinato istante acquisiamo le linee dispari; quando nell’istante successivo acquisiamo le linee pari, l’oggetto si sarà spostato, per cui se provasssimo a ricomporre assieme primo e secondo semiquadro (diciamo un grezzo deinterlacciamento) otterremmo una immagine seghettata.
L'immagine di seguito riassume in modo molto schematico quanto appena detto.
http://img19.imageshack.us/img19/7766/93121667.jpg
Al contrario, data l’elevata frequenza con cui viene mostrata a schermo l’alternanza dei semiquadri pari e dispari, l’occhio non percepisce l’alternanza dei singoli semiquadri. L’effetto per il cervello è quello di una visualizzazione fluida e senza “buchi”.
Tornando all’esempio di prima (vedi immagine), noi percepiamo l’immagine come seghettata perche’ non la stiamo guardando in movimento e stiamo guardando in contemporanea tutti e due i field. Ma se vedessimo a schermo alternarsi i due field a 50Hz l’occhio percepirebbe il quadrato in movimento, senza scalettature.
Materiale Filmico
Il materiale filmico è acquisito per sua stessa natura in modo progressivo. Un singolo fotogramma di una pellicola contiene di per se tutte le “informazioni”, per cui anche scomponendolo in field pari e dispari, ciascuna coppia di field contiene tutte le informazioni necessarie a ricostruire il frame orirginale, senza alcun artefatto. Quando una pellicola va riversata su un supporto o preparata non per la visione al cinema, ma in TV, bisogna necessariamente interlacciare il materiale originale.
A questo punto (purtroppo!!) entra inevitabilmente in gioco il rapporto tra frequenza a cui il materiale e’ stato acquisito, e quello a cui va trasmesso o “inciso” sul supporto (DVD).
Di questo ci occupiamo dopo (4. INTERLACING/DEINTERLACING, CADENZE e PULLDOWN).
Riassunto e Sintesi dei Procedimenti Necessari
Ad ogni caso, è importante non perdere di vista la “catena” nel suo complesso, per non perdersi.
- Materiale televisivo: nasce interlacciato; se visionato su CRT non necessita di alcun trattamento, se visionato su TV progressiva va prima deinterlacciato
- Materiale filmico: nasce progressivo (pellicola cinematografica), se trasmesso via network televisivo va prima interlacciato. A quel punto, se visionato su CRT non necessita di alcun ulteriore trattamento, se visionato su TV progressiva va deinterlacciato.
2.4 Motivi dell’applicazione dell’interlacciamento ai segnali televisivi
Per quale motivo un giorno (su per giù all’inizio delle trasmissioni televisive) si decise di ricorrere all’interlacciamento dei segnali?
I motivi che portarono a tale scelta per la trasmissione dei segnali televisivi furono principalmente tre, legati sia alle tecniche di trasmissione del segnale stesso sia al tipo di TV (CRT) per cui il sistema fu pensato:
- le TV CRT, sulle quali il segnale era destinato a essere mostrato, si basavano (e si basano tutt’oggi, ad eccezione di alcune in grado di trasmettere segnali progressivi) non a caso sullo stesso principio: il cannone a elettroni infatti “disegna” a schermo prima le linee dispari, poi le linee pari, nella stessa sequenza in cui sono state acquisite e trasmesse;
- riduzione della banda passante: a parità di banda occupata dal segnale, interlacciarlo permette di campionarlo con una frequenza doppia per un determinato di linee (e quindi di mostrarlo ad una frequenza sufficientemente alta da ingannare l’accoppiata occhio/cervello, come detto al punto precedente). In alternativa, fissando frequenza e numero di linee, di trasmetterlo usando la metà della banda. Infine, ultima e forse più interessante variante, tenendo fisse frequenza e banda passante, di raddoppiare il numero di linee. Ad esempio (fonte Wikipedia), un segnale in alta definizione 1080i50, interlacciato con risoluzione 1920x1080 e frequenza di 50 Hz, occupa una banda simile a un segnale 720p50, a scansione progressiva con risoluzione di 1280x720 e frequenza 50 Hz. Il primo segnale però ha circa il 50% in più di risoluzione spaziale;
- aumento della qualità delle immagini (sui CRT), in particolar modo dovuto alla riduzione dello sfarfallio e alla migliore rappresentazione dei soggetti in movimento, che risultano piu’ fluidi. Su questo argomento, ovvero quello della maggior fluidità osservabile su materiale interlacciato torneremo dopo.
3. STANDARD: RISOLUZIONI e FREQUENZE
Ovviamente, come sempre, Stati Uniti e resto del mondo non si misero d’accordo:
- PAL(EUROPA): 50 campi al secondo (50Hz), 625 linee, campi dispari disegnati per primi. Il formato PAL è spesso indicato con la sigla 576i, che è un modo abbreviato per indicare la risoluzione in pixel (720 x 576) corrispondente al segnale PAL. Perchè si dice 576i e non 625i, prendendo a riferimento il numero di linee su cui è definito lo standard? Perchè delle 625 linee a disposizione, solo 576 vengono effettivamente utilizzate per trasmettere l’immagine, mentre le restanti sono usate per trasmettere altre informazioni.
- NTSC (USA): 59,94 campi al secondo (59,94Hz), 525 linee, campi pari disegnati per primi. Viene comunemente indicato come 480i. La risoluzione per standard televisivi è in questo caso di 646 x 486 pixel.
Mi è abbastanza chiaro il motivo per cui NTSC e PAL sono basati su frequenze diverse, essendo esse legate alla frequenza della corrente alternata distribuita nei diversi paesi.
Sinceramente ignoro il perchè si sia deciso si basare i due sistemi su risoluzioni differenti. Tornando al discorso banda passante, potrei suppore che essendo la banda passante fissata non dai paesi ma da limiti tecnologici e quindi uguale per tutti, chi lavorava su una frequenza maggiore dovette per forza di cose abbassare la risoluzione. Ma, ripeto, è solo una mia supposizione. Chiunque voglia smentire e correggere è il benvenuto
4. INTERLACING/DEINTERLACING, CADENZE e PULLDOWN
Abbiamo messo assieme tutte le informazioni necessarie a trattare l’argomento pulldown. Ora si tratta di “amalgamarle”.
Nel seguito tenterò di seguire l’ideale percorso che un flusso di dati fa dal momento in cui viene creato/ripreso a quello in cui viene proiettato sulla TV.
4.1 I Step: Trasformazione del materiale filmico in interlacciato
Veniamo allora ad un primo esempio, il più classico, per capire come sia possibile passare da un materiale inciso su pellicola, quindi a 24fps e in un certo senso “progressivo” (ogni frame di pellicola, ovvero ogni fotogramma, contiene tutte le teoriche linee, non solo una parte di esse) ad un materiale interlacciato, alla cadenza non più di 24fps, ma di 50field/s (PAL), o 59.94field/s (NTSC).
4.1.1 2:3 (anche detto 3:2) Pulldown
Questo pulldown è generalmente usato nei paesi NTSC, in quanto il suo obiettivo è quello di passare dal 48 a 60 fields, o da 24 a 30 frame.
Il principio matematico è abbastanza semplice: ogni 4 field originali se ne duplica 1. In questo modo, si hanno 12 field in più (ogni 48), che sommati agli iniziali 48 ne danno in tutto 60.
L’importante a questo punto è ricombinare i field nella giusta sequenza e, ancor prima, duplicare quelli giusti.
Nello schema riportato qui sotto ho tentato di riassumere la procedura utilizzata a livello di sequenza.
http://img688.imageshack.us/img688/4314/23pulldown.jpg
Prendiamo ora a riferimento i primi 4 frame della sequenza originale: vengono innanzitutto duplicati il field dispari n. 2 e il field pari n. 4.
Nella struttura definitiva a 60field (mostrati su CRT), il primo frame viene ricomposto esattamente tramite i due field originali (vedere figura di seguito). L’unica differenza è che questo frame verrà proiettato per 1/30 di secondo, anzichè 1/24.
Il secondo frame sarà composto dalla sequenza 2S - 2P, pertanto rimarrà anch’esso identico all’originale.
Il terzo frame sarà composto dal duplicato del 2D e da 3P, sarà quindi una sorta di “ibrido”.
Allo stesso modo, il quarto frame: 3D - 4P.
Infine, il quinto frame sarà corrispondente a quarto originale: 4D - 4P, in cui 4P è un duplicato.
Per ogni 4 frame originali, ne otteniamo in uscita 5, di cui 2 composti però da field provenienti da frame originali diversi (vedere sotto). Data la veloce alternanza a schermo dei vari field, l’occhio non percepisce l’alternanza dei field diversi che andrebbero a comporre frame misti.
http://img825.imageshack.us/img825/492/43001192.jpg
Un’ultimissima nota: in realtà la frequenza reale dei sistemi NTSC non è esattamente 60Hz, bensì 59.94Hz (field/s), ovvero 29.97frame/s. Il puldown 2:3 produce 5 frame in luogo dei 4 originali. 5 frame proiettati ciascuno a 1/29.97s corrisponderebbero a 4 frame a 1/23.976s, quindi non esattamente a 1/24s come è la vera cadenza cinematografica. In sintesi, prima di applicare il pulldown il filmato viene rallentato di 1/1000, per scendere da 1/24 a 1/23.976.
4.1.2 2:2 e 2:2:2:2:2:2:2:2:2:2:2:3 Pulldown
Il metodo 2:2 è generalmente utilizzato nei paesi PAL (o in NTSC in casi più rari di filmati acquisiti a 30fps).
I film per cinema sono acquisiti a 24fps.
Il refresh rate PAL è fissato a 50Hz (50fields attenzione - non frame - al secondo).
Supponiamo per un momento che il film sia acquisito a 25fps.
Se così fosse, la soluzione sembrerebbe ovvia.
Da ognuno dei Frame si otterrebbero due field, quindi 50in tutto (al secondo). Lo schema (riportato di seguito) è ovvio:
http://img811.imageshack.us/img811/2663/03be.jpg
In pratica (caso più unico che raro) ad un Frame del film corrisponderebbe esattamente un Frame video. 2:2 indica per l’appunto questo: a 2 frame del formato originale corrispondono esattamente 2 Frame del filmato che viene messo in onda.
Per sfruttare questa evidente semplificazione, spesso i film TV nei paesi PAL vengono effettivamente filmati a 25fps e non 24fps.
Al contrario, il materiale 24fps, viene comunque interlacciato in cadenza 2:2 e successivamente accelerato del 4%, per tornare alla cadenza giusta di 25fps - 50field/s. Il leggero aumento di velocità viene percepito dall’occhio raramente e soltanto in situazioni particolari, mentre all’accelerazione (e conseguente distorsione) dell’audio si ovvia se necessario tramite appositi filtri.
Allo scopo di evitare l'accelerazione video e la conseguente rielaborazione della traccia audio (sebbene sia una operazione tutt'altro che impegnativa dal punto di vista computazionale) su Sky qualche volta viene utilizzano il telecine tipo B (facendo riferimento ai test HQV PAL 1.4) conosciuto anche come 2:2:2:2:2:2:2:2:2:2:2:3 pulldown.
Questo tipo di trasposizione del segnale cinematografico in modalità interlacciata permette di non variare la durata del film (quindi di evitare una ricodifica dell' audio) al prezzo di periodici sganciamenti della cadenza.
In tutta probabilità su Sky utilizzano questa tecnica in assenza di un master realizzato apposta per le TV europee (in pratica è probabilissimo che utilizzino un file ricavato da un BD).
L'adozione di questo tipo particolare di pulldown rende particolarmente difficile, da parte delle TV (ma anche da parte dei processori video più evoluti), il riconoscimento corretto della cadenza e il seguente deinterlacciamento, con conseguente semiquadro interpolato per risoluzione verticale e un microscatto (se capita nel mezzo di una carrellata diviene molto visibile).
Come detto l'audio rimane intatto e non viene accelerato, ma a dire il vero in questo modo è fuori sincro (in modo impercettibile) e si riallinea ogni secondo (cioè ogni 25 fotogrammi).
Se infine si è acquisito a 30fps e si è in NTSC allora non c’è bisogno di alcuna accelerazione.
4.1.3 3:3:2:2 (2:3:3:2 / 2:2:3:3) Pulldown
Giocando sul numero di field raddoppiati o triplicati, si può eliminare dalla sequenza del più classico 2:3 uno dei frame “misti”. Nella figura di seguito si può infatti notare come mentre dal 2:3 si origino 2 frame misti, dal 3:3:2:2 se ne ottenga solamente uno.
http://img801.imageshack.us/img801/9779/76413648.png
Analogo risultato (nel senso di un solo frame misto) si otterrebbe con un pulldown 2:3:3:2 o ancora 2:2:3:3.
4.2 II Step: Deinterlacing
4.2.1 Caso A: Proiezione su CRT
Nel caso in cui il materiale interlacciato venga proiettato su CRT, non entra in gioco nessuna ulteriore trasformazione, in quanto come detto sia su un sistema PAL (ad esempio 2:2) che NTSC (2:3) il risultato del telecine è già alla cadenza tipica del sistema.
4.2.2 Proiezione su LCD/PLASMA - Deinterlacing
Nel caso in cui il materiale interlacciato venga proiettato su LCD/Plasma, esso va reso di nuovo progressivo, ovvero deinterlacciato.
L’elettronica “di bordo” deve affrontare un duplice problema: innanzitutto deve “riconoscere” la sequenza di field, ovvero capire quale è la sequenza (cioè che tipo di pulldown è stato applicato alla fonte) e anche quale è il primo field di ogni gruppo di ripetizioni; in secondo luogo, applicare l’algoritmo per la ricostruzione del segnale progressivo.