Jeux de caractères supportés

Jeux de caractères supportés

6.19 Chaînes de caractères multi-octets
6 Référence des fonctions
Manuel PHP

. Introduction
. Installation
. Configuration à l'exécution
. Types de ressources
. Constantes pré-définies
. Entrées/Sorties HTTP
. Jeux de caractères supportés
. Exploitation des chaînes multi-octets en PHP
. Cas des caractères japonais
. Références
->Jeux de caractères supportés
. mb_convert_case
. mb_convert_encoding
. mb_convert_kana
. mb_convert_variables
. mb_decode_mimeheader
. mb_decode_numericentity
. mb_detect_encoding
. mb_detect_order
. mb_encode_mimeheader
. mb_encode_numericentity
. mb_ereg_match
. mb_ereg_replace
. mb_ereg_search_getpos
. mb_ereg_search_getregs
. mb_ereg_search_init
. mb_ereg_search_pos
. mb_ereg_search_regs
. mb_ereg_search_setpos
. mb_ereg_search
. mb_ereg
. mb_eregi_replace
. mb_eregi
. mb_get_info
. mb_http_input
. mb_http_output
. mb_internal_encoding
. mb_language
. mb_list_encodings
. mb_output_handler
. mb_parse_str
. mb_preferred_mime_name
. mb_regex_encoding
. mb_regex_set_options
. mb_send_mail
. mb_split
. mb_strcut
. mb_strimwidth
. mb_strlen
. mb_strpos
. mb_strrpos
. mb_strtolower
. mb_strtoupper
. mb_strwidth
. mb_substitute_character
. mb_substr_count
. mb_substr

6.19.11 Jeux de caractères supportés

Jeux de caractères supportés Nom dans le registre IANA Jeux de caractères Description Notes ISO-10646-UCS-4 ISO 10646 Le jeu de caractères universel ( Universal Character Set ), avec 31 bits par caractère, au standard UCS-4 par ISO/IEC 10646 . Il est synchronisé avec la dernière version d'Unicode. Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM ( byte order mark ), pour connaître l'ordre des bits. ISO-10646-UCS-4 UCS-4 Voir ci-dessus. Contrairement à UCS-4 , les chaînes sont supposées être au format big endian. ISO-10646-UCS-4 UCS-4 Voir ci-dessus. Contrairement à UCS-2 , les chaînes sont supposées être au format little endian. ISO-10646-UCS-2 UCS-2 Le jeu de caractères universel ( Universal Character Set ), avec 16 bits par caractère, au standard UCS-2 par ISO/IEC 10646 . Il est synchronisé avec la dernière version d'Unicode. Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM ( byte order mark ), pour connaître l'ordre des bits. ISO-10646-UCS-2 UCS-2 Voir ci-dessus. Contrairement à UCS-4 , les chaînes sont supposées être au format big endian. UTF-32 Unicode Format de transformation d'Unicode, de 32 bits, dont les cartes correspondent au jeu stantder Unicode. Ce jeu n'est pas identique à UCS-4 car les caractères Unicode étaient limités à des valeurs de 21 bits. Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM ( byte order mark ), pour connaître l'ordre des bits. UTF-32BE Unicode Voir ci-dessus. Contrairement à UTF-32 , les chaînes sont supposées être au format big endian. UTF-32LE Unicode Voir ci-dessus. Contrairement à UTF-32 , les chaînes sont supposées être au format little endian. UTF-16 Unicode Format de transformation d'Unicode sur 16 bits. Il faut noter que UTF-16 n'est plus identique à UCS-2 car un mécanisme a été introduit en Unicode 2.0 et UTF-16 fait maintenant référence à un codage de 21 bits. Si ce nom est utilisé dans l'outil de conversion, le convertisseur essaie de reconnaître le texte à partir du dernier BOM ( byte order mark ), pour connaître l'ordre des bits. UTF-16BE Unicode Voir ci-dessus. Contrairement à UTF-16 , les chaînes sont supposées être au format big endian. UTF-16BE Unicode Voir ci-dessus. Contrairement à UTF-16 , les chaînes sont supposées être au format big endian. UTF-8 Unicode / UCS Format de transformation Unicode de 8 bits. none UTF-7 Unicode Un format compatible avec le courrier électronique d'Unicode, spécifié dans RFC2152 . none aucun Unicode Une variante d' UTF-7 qui est spécialement utilisée dans le protocole IMAP . none US-ASCII (recommandé) / iso-ir-6 / ANSI_X3.4-1986 / ISO_646.irv:1991 / ASCII / ISO646-US / us / IBM367 / CP367 / csASCII ASCII / ISO 646 ASCII, American Standard Code for Information Interchange est un format classique de 7 bits. Il est aussi normalisé internationalement, sous le nom ISO 646 . (none) EUC-JP (recommandé) / Extended_UNIX_Code_Packed_Format_for_Japanese / csEUCPkdFmtJapanese Composé de US-ASCII / JIS X0201:1997 (hankaku kana) / JIS X0208:1990 / JIS X0212:1990 Comme vous le voyez, le nom est dérivé de l'abréviation de Extended UNIX Code Packed Format for Japanese , ce jeu est essentiellement utilisé sur les plates-formes Unix. Le jeu original, Extended UNIX Code , est conçu sur la base de ISO 2022 . Le jeu identifié par EUC-JP est différent de IBM932 / CP932 , qui est utilisé par OS/2® et Microsoft® Windows®. Pour échanger des informations avec ces plates-formes, utilisez EUCJP-WIN . Shift_JIS (recommandé) / MS_Kanji / csShift_JIS Composé de JIS X0201:1997 / JIS X0208:1997 Shift_JIS a été développé au début des années 80, et, au même moment, les premiers traitements de textes étaient mis sur le marché. Il a été fait pour conserver la compatibilité avec le jeu JIS X 0201:1976 . Selon la définition de l'IANA, le jeu de caractères Shift_JIS est légèrement différent de IBM932 / CP932 . Cependant, les noms "SJIS" et "Shift_JIS" sont souvent utilisés à tort, pour ces jeux. Pour CP932 , utilisez SJIS-WIN . (none) Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions Même si ce "jeu de caractères" utilise le même jeu que EUC-JP , il est en fait différent. Il a juste quelques caractères de différence. none Windows-31J / csWindows31J Composé de JIS X0201:1997 / JIS X0208:1997 / IBM extensions / NEC extensions Même si ce "jeu de caractères" utilise le même jeu que Shift_JIS , il est en fait différent. Il a juste quelques caractères de différence. (none) ISO-2022-JP (recommandé) / csISO2022JP US-ASCII / JIS X0201:1976 / JIS X0208:1978 / JIS X0208:1983 RFC1468 aucun JIS ISO-8859-1 ISO-8859-2 ISO-8859-3 ISO-8859-4 ISO-8859-5 ISO-8859-6 ISO-8859-7 ISO-8859-8 ISO-8859-9 ISO-8859-10 ISO-8859-13 ISO-8859-14 ISO-8859-15 byte2be byte2le byte4be byte4le BASE64 HTML-ENTITIES 7bit 8bit EUC-CN CP936 HZ EUC-TW CP950 BIG-5 EUC-KR UHC (CP949) ISO-2022-KR Windows-1251 (CP1251) Windows-1252 (CP1252) CP866 (IBM866) KOI8-R

<<	Jeux de caractères supportés	>>
Références	Chaînes de caractères multi-octets	mb_convert_case