Set di caratteri HTML
Per visualizzare correttamente una pagina HTML, il browser deve sapere quale set di caratteri (codifica) utilizzare:
Esempio
<meta charset="UTF-8">
Set di caratteri HTML
La specifica HTML5 incoraggia gli sviluppatori web a utilizzare il set di caratteri UTF-8!
Non è sempre stato così. La codifica dei caratteri per il web iniziale era ASCII.
Successivamente, da HTML 2.0 a HTML 4.01, ISO-8859-1 è stato considerato il set di caratteri standard.
Con XML e HTML5, UTF-8 è finalmente arrivato e ha risolto molti problemi di codifica dei caratteri.
All'inizio: ASCII
I dati del computer vengono memorizzati come codici binari (01000101) nell'elettronica.
Per standardizzare la memorizzazione del testo, è stato creato l'American Standard Code for Information Interchange (ASCII). Ha definito un numero binario univoco per ogni carattere memorizzabile per supportare i numeri da 0 a 9, l'alfabeto maiuscolo e minuscolo (az, AZ) e caratteri speciali come ! $ + - ( ) @ < > , .
Poiché ASCII utilizzava 7 bit per il carattere, poteva rappresentare solo 128 caratteri diversi.
La più grande debolezza dell'ASCII era che escludeva le lettere non inglesi.
ASCII è ancora in uso oggi, specialmente nei grandi sistemi di computer mainframe.
Per uno sguardo più da vicino, si prega di studiare il nostro Riferimento ASCII completo .
In Windows: Windows-1252
Windows-1252 era il set di caratteri predefinito in Windows, fino a Windows 95.
È un'estensione di ASCII, con l'aggiunta di caratteri internazionali.
Utilizza un byte completo (8 bit) per rappresentare 256 caratteri diversi.
Poiché Windows-1252 è l'impostazione predefinita in Windows, è supportato da tutti i browser.
Per uno sguardo più da vicino, si prega di studiare: The Complete Windows-1252 Reference .
In HTML 4: ISO-8859-1
Il set di caratteri più utilizzato in HTML 4 era ISO-8859-1.
ISO-8859-1 è un'estensione di ASCII, con l'aggiunta di caratteri internazionali.
Esempio
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
In HTML 4, è possibile specificare un set di caratteri diverso da ISO-8859-1 nel tag <meta>:
Esempio
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Tutti i processori HTML 4 supportano anche UTF-8:
Esempio
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8">
Quando un browser rileva ISO-8859-1, normalmente il valore predefinito è Windows-1252, perché Windows-1252 ha 32 caratteri internazionali in più.
Per uno sguardo più da vicino, si prega di studiare: The Complete ISO-8859-1 Reference
In HTML5: Unicode UTF-8
La specifica HTML5 incoraggia gli sviluppatori web a utilizzare il set di caratteri UTF-8.
Esempio
<meta charset="UTF-8">
Un set di caratteri diverso da UTF-8 può essere specificato nel tag <meta>:
Esempio
<meta charset="ISO-8859-1">
L'Unicode Consortium ha sviluppato gli standard UTF-8 e UTF-16, perché i set di caratteri ISO-8859 sono limitati e non sono compatibili con un ambiente multilingue.
Lo standard Unicode copre (quasi) tutti i caratteri, i segni di punteggiatura e i simboli del mondo.
Tutti i processori HTML5 e XML supportano UTF-8, UTF-16, Windows-1252 e ISO-8859.
Per uno sguardo più da vicino, si prega di studiare: The Complete Unicode Reference .