Set di caratteri HTML


Per visualizzare correttamente una pagina HTML, il browser deve sapere quale set di caratteri (codifica) utilizzare:

Esempio

<meta charset="UTF-8">

Set di caratteri HTML

La specifica HTML5 incoraggia gli sviluppatori web a utilizzare il set di caratteri UTF-8!

Non è sempre stato così. La codifica dei caratteri per il web iniziale era ASCII.

Successivamente, da HTML 2.0 a HTML 4.01, ISO-8859-1 è stato considerato il set di caratteri standard.

Con XML e HTML5, UTF-8 è finalmente arrivato e ha risolto molti problemi di codifica dei caratteri.


All'inizio: ASCII

I dati del computer vengono memorizzati come codici binari (01000101) nell'elettronica.

Per standardizzare la memorizzazione del testo, è stato creato l'American Standard Code for Information Interchange (ASCII). Ha definito un numero binario univoco per ogni carattere memorizzabile per supportare i numeri da 0 a 9, l'alfabeto maiuscolo e minuscolo (az, AZ) e caratteri speciali come ! $ + - ( ) @ < > , .

Poiché ASCII utilizzava 7 bit per il carattere, poteva rappresentare solo 128 caratteri diversi.

La più grande debolezza dell'ASCII era che escludeva le lettere non inglesi.

ASCII è ancora in uso oggi, specialmente nei grandi sistemi di computer mainframe.

Per uno sguardo più da vicino, si prega di studiare il nostro Riferimento ASCII completo .


In Windows: Windows-1252

Windows-1252 era il set di caratteri predefinito in Windows, fino a Windows 95.

È un'estensione di ASCII, con l'aggiunta di caratteri internazionali.

Utilizza un byte completo (8 bit) per rappresentare 256 caratteri diversi.

Poiché Windows-1252 è l'impostazione predefinita in Windows, è supportato da tutti i browser.

Per uno sguardo più da vicino, si prega di studiare: The Complete Windows-1252 Reference .



In HTML 4: ISO-8859-1

Il set di caratteri più utilizzato in HTML 4 era ISO-8859-1.

ISO-8859-1 è un'estensione di ASCII, con l'aggiunta di caratteri internazionali.

Esempio

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

In HTML 4, è possibile specificare un set di caratteri diverso da ISO-8859-1 nel tag <meta>:

Esempio

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

Tutti i processori HTML 4 supportano anche UTF-8:

Esempio

<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">

Quando un browser rileva ISO-8859-1, normalmente il valore predefinito è Windows-1252, perché Windows-1252 ha 32 caratteri internazionali in più.

Per uno sguardo più da vicino, si prega di studiare: The Complete ISO-8859-1 Reference


In HTML5: Unicode UTF-8

La specifica HTML5 incoraggia gli sviluppatori web a utilizzare il set di caratteri UTF-8.

Esempio

<meta charset="UTF-8">

Un set di caratteri diverso da UTF-8 può essere specificato nel tag <meta>:

Esempio

<meta charset="ISO-8859-1">

L'Unicode Consortium ha sviluppato gli standard UTF-8 e UTF-16, perché i set di caratteri ISO-8859 sono limitati e non sono compatibili con un ambiente multilingue.

Lo standard Unicode copre (quasi) tutti i caratteri, i segni di punteggiatura e i simboli del mondo.

Tutti i processori HTML5 e XML supportano UTF-8, UTF-16, Windows-1252 e ISO-8859.

Per uno sguardo più da vicino, si prega di studiare: The Complete Unicode Reference .