8.67 Chaînes de caractères multi-octets
8 Référence des fonctions
Manuel PHP
. Introduction . Installation . Configuration à l'exécution . Types de ressources . Constantes pré-définies . Entrées/Sorties HTTP . Jeux de caractères supportés . Exploitation des chaînes multi-octets en PHP ->Cas des caractères japonais . Références . Jeux de caractères supportés . mb_convert_case . mb_convert_encoding . mb_convert_kana . mb_convert_variables . mb_decode_mimeheader . mb_decode_numericentity . mb_detect_encoding . mb_detect_order . mb_encode_mimeheader . mb_encode_numericentity . mb_ereg_match . mb_ereg_replace . mb_ereg_search_getpos . mb_ereg_search_getregs . mb_ereg_search_init . mb_ereg_search_pos . mb_ereg_search_regs . mb_ereg_search_setpos . mb_ereg_search . mb_ereg . mb_eregi_replace . mb_eregi . mb_get_info . mb_http_input . mb_http_output . mb_internal_encoding . mb_language . mb_list_encodings . mb_output_handler . mb_parse_str . mb_preferred_mime_name . mb_regex_encoding . mb_regex_set_options . mb_send_mail . mb_split . mb_strcut . mb_strimwidth . mb_strlen . mb_strpos . mb_strrpos . mb_strtolower . mb_strtoupper . mb_strwidth . mb_substitute_character . mb_substr_count . mb_substr
|
8.67.9 Cas des caractères japonais
La plupart des caractères japonais demandent plus d'un octet
pour être représentés. De plus, plusieurs jeux de caractères
japonais existent : il y a notamment EUC-JP, Shift_JIS et
ISO-2022-JP. Unicode devient de plus en plus populaire, et
UTF-8 aussi. Pour développer des applications Web en environnement
japonais, il faut savoir que les encodages ci-dessus dépendent de
l'application qu'on en fait : entrée/sortie HTTP, bases de données
ou courrier électronique.
-
La taille nécessaire à un caractère peut aller jusqu'à 4 octets.
-
Un caractère multi-octets occupe généralement deux octets,
à comparer avec les caractères simple-octet traditionnellement
utilisés. Les caractères les plus gros sont appelés "zen-kaku"
(i.e. grande largeur) et les plus petits sont appelés "han-kaku"
(i.e. demi-largeur). Les caractères "zen-kaku" sont
généralement de taille constante.
-
Certains encodages de caractères définissent des séquences de
début/fin pour les sections multi-octets
(
00h
to
7fh
).
-
ISO-2022-JP doit être utilisé pour les protocoles SMTP/NNTP, et les en-têtes ainsi
que les entités devraient être réencodés en accord avec la RFC correspondante.
Bien que cela ne soit pas requis, ça reste une bonne idée car beaucoup de
user-agent (agents utilisateurs) populaires ne peuvent pas reconnaître d'autre
méthode d'encodage.
-
Les pages Web créées pour les téléphones portables comme
i-mode ,
Vodafone live! , ou EZweb
sont supposées utiliser l'encodage Shift_JIS.
|