Qu'est-ce que l'Unicode ?
Unicode est une norme universelle de codage des caractères utilisée pour prendre en charge les caractères dans les scripts non-ASCII. Internet a été initialement construit sur ASCII, qui est basé sur l'alphabet anglais et ne comprend que 128 caractères.
Unicode permet de prendre en charge toutes les langues du monde et leurs ensembles de caractères uniques - Unicode peut prendre en charge plus d'un million de caractères ! La façon dont Unicode fonctionne est en permettant plus de bits, abréviation de b inary dig it , qui sont des unités d'information sur une machine. Les caractères ASCII ne nécessitent qu'environ 7 bits, tandis que l'Unicode utilise 16 bits. Cela est nécessaire car il faut plus de bits pour traiter des langues comme le chinois, l'arabe et le russe.
Il existe différents types d'Unicode, notamment UTF-8 et UTF-16, les deux plus courants. UTF-8 est devenu le standard typique utilisé sur le web car il ajuste le nombre de bits utilisés en fonction du caractère. Cela signifie que les caractères ASCII en UTF-8 ne prennent que les bits nécessaires à leur traitement.