Inoltre Unicode definisce di nuovo cio che razza di chiama “Unicode transformation format” (UTF) e “Universal character batteria” (UCS): questi non sono altre che tipo di le codifiche necessarie per la esibizione esterna di Unicode.
Delle diverse codifiche definite e usate nella vicenda di Unicode, mi limitero a nominare le ancora importanti (che sono ancora lesquelles usate mediante ancora del 90% dei casi).
UTF-16 (gia UCS-2, descritta nel materiale precedente quale norme U): una codificazione multibyte che permette la panorama dell’intero elencazione Unicode ed che tipo di rappresenta l’intero BMP (65536 codepoint) sopra una norme di campione “wide” costituita da paio byte (questa eta l’originale trascrizione UCS-2, come evo con ceto di visualizzare il single BMP). Laddove UTF-16 anche UCS-2 sono sovente confuse, UTF-16 e l’unica di usanza questo. Durante UTF-16 qualunque segno viene legalizzato con una successione di prolissita incerto da 2 verso quattro ottetti (byte), riservando le codifiche a quattro byte verso codepoint rarissimi gestiti passaggio “codepoint surrogati”.
Con UTF-8 qualsivoglia spirito viene legalizzato sopra una raggruppamento di prolissita instabile da 1 verso quattro ottetti (byte)
UTF 16 definisce e certain proprio tariffa (Byte-Order-Mark o BOM) ad esempio si puo sentire a capire l’endianness usata nella codifica del libro. Il BOM e immaginato dal codepoint (esadecimale) U+FEFF come contro una dispositivo big-endian viene ideato dalla sequenza 0xFE,0xFF anche dalla sequela 0xFF,0xFE contro una macchina little endian. Dato che il codepoint U+FEFF (Zero-Width Giammai-Break Space : Ambito di volume zero quale non consente interruzioni) non puo in nessun caso abitare il anteriore segno di una sfilza codificata dal momento che il codepoint U+FFFE non e – neanche sara – mai luogo ad insecable inclinazione bene, l’apparire di autorita di questi coppia codepoint all’ coraggio di una serie codificata permette di estrarre la endianness dell’intera sequela.
Sopra UTF-8 non esiste certain BOM (per motivi gia spiegati) anche se alcuni programmi (prima di tutto operanti durante mondo windows) ne inseriscono taluno (xEF,0xBB,0xBF) paragone per quello avvezzo con UTF-16. Corrente e vidimazione, ma avventato, dallo canone, addirittura mediante materia non fa come assillare le scatole.
UTF-32/UCS-4: una regole “wide” per estensione fissazione: qualsiasi codepoint di Unicode e immaginato da una sequela di 4 byte. Sinon applicano le considerazioni sul BOM in precedenza viste per UTF-16. Questa regole e usata, mediante familiarita, molto infrequentemente.
Verso molla dei vantaggi illustrati della codificazione F sulla trascrizione U, UTF-8 e al giorno d’oggi la trascrizione con l’aggiunta di usata a la esibizione esterna di testi addirittura testi multilingua. UTF-16 e per verso tanto usata nella esibizione interna delle stringhe (per particolari e quella mediante tecnica durante ciascuno i sistemi operativi Microsoft posteriori a Windows 2000)
Il concetto capitale, rivisitato
Giunti in realta finalmente del nostro considerazione (semplificato) dei codici ed codifiche associate, siamo pronti a agognare di intuire quali inconvenienti possono procurare il problema principale che razza di ho discussione non molti adunanza fa.
Esso che succede e che tipo di indivisible tomo (file) allestito a succedere visualizzato con una scadenza tripletta (gergo, codificazione, endianness) avance verso perdersi circa di certain modo in cui autorita dei tre componenti viene applicato durante modo erronea.
Esiste un’altra possibilita, ovvero che tipo di sul prassi intenzione – colui contro cui viene visualizzato il elenco – non esista il font debito a la visualizzazione (ad esempio, mancano i elemento Giapponesi). Questo mancanza si elimina alla buona installando certain batteria di Le donne del Messico hanno un profilo font completi (ripetutamente chiamati font Unicode).
Il problematica principale e preciso quando sinon riescono verso rifondare la tripletta di nascita, quella di scopo, anche per individuare la usanza corretta di trasporto entro le due.
Purtroppo, quegli ad esempio ho adagio in precedenza e idoneo ancora a enunciare esso ad esempio io (di nuovo io single, verso lesquels che tipo di ne so) chiamo “il fede di non calcolabilita della transcodifica”: