8.67 Chaînes de caractères multi-octets
8 Référence des fonctions
Manuel PHP
. Introduction . Installation . Configuration à l'exécution . Types de ressources . Constantes pré-définies . Entrées/Sorties HTTP . Jeux de caractères supportés . Exploitation des chaînes multi-octets en PHP . Cas des caractères japonais . Références ->Jeux de caractères supportés . mb_convert_case . mb_convert_encoding . mb_convert_kana . mb_convert_variables . mb_decode_mimeheader . mb_decode_numericentity . mb_detect_encoding . mb_detect_order . mb_encode_mimeheader . mb_encode_numericentity . mb_ereg_match . mb_ereg_replace . mb_ereg_search_getpos . mb_ereg_search_getregs . mb_ereg_search_init . mb_ereg_search_pos . mb_ereg_search_regs . mb_ereg_search_setpos . mb_ereg_search . mb_ereg . mb_eregi_replace . mb_eregi . mb_get_info . mb_http_input . mb_http_output . mb_internal_encoding . mb_language . mb_list_encodings . mb_output_handler . mb_parse_str . mb_preferred_mime_name . mb_regex_encoding . mb_regex_set_options . mb_send_mail . mb_split . mb_strcut . mb_strimwidth . mb_strlen . mb_strpos . mb_strrpos . mb_strtolower . mb_strtoupper . mb_strwidth . mb_substitute_character . mb_substr_count . mb_substr
|
8.67.11 Jeux de caractères supportés Jeux de caractères supportés Nom dans le registre IANA
Jeux de caractères
Description
Notes
ISO-10646-UCS-4
ISO 10646
Le jeu de caractères universel (
Universal Character Set
),
avec 31 bits par caractère, au standard
UCS-4
par
ISO/IEC 10646
. Il est synchronisé avec
la dernière version d'Unicode.
Si ce nom est utilisé dans l'outil de conversion, le convertisseur
essaie de reconnaître le texte à partir du dernier BOM
(
byte order mark
), pour connaître l'ordre
des bits.
ISO-10646-UCS-4
UCS-4
Voir ci-dessus.
Contrairement à
UCS-4
, les chaînes sont supposées
être au format big endian.
ISO-10646-UCS-4
UCS-4
Voir ci-dessus.
Contrairement à
UCS-2
, les chaînes sont supposées
être au format little endian.
ISO-10646-UCS-2
UCS-2
Le jeu de caractères universel (
Universal Character Set
),
avec 16 bits par caractère, au standard
UCS-2
par
ISO/IEC 10646
. Il est synchronisé avec
la dernière version d'Unicode.
Si ce nom est utilisé dans l'outil de conversion, le convertisseur
essaie de reconnaître le texte à partir du dernier BOM
(
byte order mark
), pour connaître l'ordre
des bits.
ISO-10646-UCS-2
UCS-2
Voir ci-dessus.
Contrairement à
UCS-4
, les chaînes sont supposées
être au format big endian.
UTF-32
Unicode
Format de transformation d'Unicode, de 32 bits, dont les cartes
correspondent au jeu stantder Unicode. Ce jeu n'est pas identique
à
UCS-4
car les caractères Unicode étaient limités
à des valeurs de 21 bits.
Si ce nom est utilisé dans l'outil de conversion, le convertisseur
essaie de reconnaître le texte à partir du dernier BOM
(
byte order mark
), pour connaître l'ordre
des bits.
UTF-32BE
Unicode
Voir ci-dessus.
Contrairement à
UTF-32
, les chaînes sont supposées
être au format big endian.
UTF-32LE
Unicode
Voir ci-dessus.
Contrairement à
UTF-32
, les chaînes sont supposées
être au format little endian.
UTF-16
Unicode
Format de transformation d'Unicode sur 16 bits. Il faut noter
que
UTF-16
n'est plus identique à
UCS-2
car un mécanisme a été introduit en Unicode 2.0 et
UTF-16
fait maintenant référence à un
codage de 21 bits.
Si ce nom est utilisé dans l'outil de conversion, le convertisseur
essaie de reconnaître le texte à partir du dernier BOM
(
byte order mark
), pour connaître l'ordre
des bits.
UTF-16BE
Unicode
Voir ci-dessus.
Contrairement à
UTF-16
, les chaînes sont supposées
être au format big endian.
UTF-16BE
Unicode
Voir ci-dessus.
Contrairement à
UTF-16
, les chaînes sont supposées
être au format big endian.
UTF-8
Unicode / UCS
Format de transformation Unicode de 8 bits.
none
UTF-7
Unicode
Un format compatible avec le courrier électronique d'Unicode,
spécifié dans RFC2152 .
none
aucun
Unicode
Une variante d'
UTF-7
qui est spécialement utilisée dans le
protocole IMAP .
none
US-ASCII (recommandé) / iso-ir-6 / ANSI_X3.4-1986 /
ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII
ASCII / ISO 646
ASCII,
American Standard Code for Information Interchange
est un format classique de 7 bits. Il est aussi normalisé internationalement,
sous le nom
ISO 646
.
(none)
EUC-JP (recommandé) /
Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese
Composé de US-ASCII / JIS X0201:1997 (hankaku kana) /
JIS X0208:1990 / JIS X0212:1990
Comme vous le voyez, le nom est dérivé de l'abréviation de
Extended UNIX Code Packed Format for Japanese
,
ce jeu est essentiellement utilisé sur les plates-formes Unix.
Le jeu original,
Extended UNIX Code
,
est conçu sur la base de
ISO 2022
.
Le jeu identifié par
EUC-JP
est différent
de
IBM932 / CP932
, qui est utilisé par
OS/2®
et Microsoft® Windows®.
Pour échanger des informations avec ces plates-formes,
utilisez
EUCJP-WIN
.
Shift_JIS (recommandé) / MS_Kanji / csShift_JIS
Composé de JIS X0201:1997 / JIS X0208:1997
Shift_JIS
a été développé au début des années 80,
et, au même moment, les premiers traitements de textes étaient
mis sur le marché. Il a été fait pour conserver la compatibilité avec
le jeu
JIS X 0201:1976
. Selon la définition de
l'IANA, le jeu de caractères
Shift_JIS
est légèrement
différent de
IBM932 / CP932
. Cependant, les noms
"SJIS"
et
"Shift_JIS"
sont
souvent utilisés à tort, pour ces jeux.
Pour
CP932
, utilisez
SJIS-WIN
.
(none)
Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions
Même si ce "jeu de caractères" utilise le même jeu que
EUC-JP
, il est en fait différent. Il a juste
quelques caractères de différence.
none
Windows-31J / csWindows31J
Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions
Même si ce "jeu de caractères" utilise le même jeu que
Shift_JIS
, il est en fait différent. Il a juste
quelques caractères de différence.
(none)
ISO-2022-JP (recommandé) / csISO2022JP
US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983
RFC1468
aucun
JIS
ISO-8859-1
ISO-8859-2
ISO-8859-3
ISO-8859-4
ISO-8859-5
ISO-8859-6
ISO-8859-7
ISO-8859-8
ISO-8859-9
ISO-8859-10
ISO-8859-13
ISO-8859-14
ISO-8859-15
byte2be
byte2le
byte4be
byte4le
BASE64
HTML-ENTITIES
7bit
8bit
EUC-CN
CP936
HZ
EUC-TW
CP950
BIG-5
EUC-KR
UHC (CP949)
ISO-2022-KR
Windows-1251 (CP1251)
Windows-1252 (CP1252)
CP866 (IBM866)
KOI8-R
|