Une indigestion de jeux de caractères

Voici une liste de sites Web qui contiennent des documents en plusieurs langues, utilisant une variété de jeux de caractères et d'encodages.

English version is here.


Russe:
FREEnet offre des alphabets en ISO-8859-5, KOI-8, CP866 (Cyrillique MSDOS) et CP1251 (? Cyrillique MS-Windows).
Voici aussi un exemple concret de KOI-8 et un tout petit morceau d' ISO_8859-5 du Japon.
Polonais:
J'estime qu'un site polonais utiliserait l' ISO-8859-2, mais je ne peux en être sûr. Ce n'est clairement pas de l'ISO-Latin-1.
Grec:
Renseignez-vous sur les études supérieures au NTUA en ISO-8859-7.
Hébreu:
Du Japon encore, deux petits fragments d'ISO-8859-8, un avec directionalité visuelle, et l'autre implicite. Mieux vaut un exemple concret d' ISO-8859-8, directionalité non spécifiée.
Chinois:
Il y a trois encodages du chinois largement utilisés: GB 2312 en encodage GB et HZ, et Big5.
Japonais:
Essayez l' JIS X 208.
Coréen:
Un petit fragment et un exemple concret, les deux en KSC 5601.
Perse (Farsi):
Votre fureteur peut-il montrer de l' ISIRI 3342 ?
Français:
Pour être complet, un peu d' ISO-8859-1.
Multilingue:
Voici du danois, de l'anglais, de l'esperanto, de l'estonien, du finnois, du FORTRAN, du français, de l'allemand, du grec, de l'hébreu, de l'italien, du hollandais, du norvégien, du polonais, du russe, du suédois, du thaï, du turc, du vietnamien, du serbo-croate, du japonais, du coréen et 3 sortes de chinois, tous dans le même document. Utilisez Mule pour voir ça. Il semble que le mécanisme ISO-2022 soit utilisé pour passer d'un jeu de caractères à un autre.

François Yergeau <yergeau@alis.ca>

A character set smorgasbord

Here is a list of Web sites that serve documents in various languages, with a variety of character sets and encodings. Enjoy.

La version française est ici.


Russian:
FREEnet offers alphabet listings in ISO-8859-5, KOI-8, CP866 (Cyrillic MSDOS) and CP1251 (? Cyrillic MS-Windows).
Here is a real life example of KOI-8 and a very short blurb of ISO_8859-5 from Japan.
Polish:
I would guess that a Polish site uses ISO-8859-2, but I have no way to make sure. It's clearly not ISO-Latin-1.
Greek:
Read about graduate studies at NTUA in ISO-8859-7.
Hebrew:
From Japan again, two short fragments of ISO-8859-8, one using visual, and the other implicit directionality. Better is a real life example of ISO-8859-8, directionality unspecified.
Chinese:
There are three widely used encodings of Chinese: GB 2312 in GB and HZ encodings, and Big5.
Japanese:
You can try JIS X 208.
Korean:
A short fragment and a real life example, both in KSC 5601.
Persian (Farsi):
Can your browser display ISIRI 3342?
French:
For completeness' sake, some ISO-8859-1.
Multi-lingual:
Here is Danish, English, Esperanto, Estonian, Finnish, FORTRAN, French, German, Greek, Hebrew, Italian, Dutch, Norwegian, Polish, Russian, Swedish, Thai, Turkish, Vietnamese, Serbo-croat, Japanese, Korean and 3 kinds of Chinese, all in one document. Use Mule to view that. It seems to use the ISO-2022 mechanism to switch charsets.

François Yergeau <yergeau@alis.ca>