PHP開発のエッセンス(5) PHP 6と国際化

名前空間と並ぶPHP 6の大きな変更点として、「国際化対応」があります。「ん? これまでもmbstringがあったじゃん」と思われるかもしれませんが、mbstringはあくまでもエクステンション。つまり拡張機能であって、PHP本体の機能ではありませんでした。

もちろん、我々マルチバイト文字言語圏の住人にとって、mbstring拡張は欠かせない機能です。しかし、英語圏を中心としたISO-8859-1エンコーディングしか使わない人たちにしてみれば、不要な上に不具合対応も面倒な「鬼っ子」機能でしかありません。

事実、いくつかのLinuxディストリビューションでは、PHPの公式パッケージにmbstring拡張が含まれないなんてこともしばしばでした。しかし、PHP 6からはPHP本体に国際化の機能が実装されるため、マルチバイト言語の基本的な処理に関しては、我々もより安心して利用できるようになりそうです。

さて、このPHP 6の国際化機能は、主に「ICU (International Components for Unicode)」ライブラリを利用して実装されています。ICUは、IBMが提供するUnicodeと国際化処理のためのC/C++、Java向けライブラリで、オープンソースライセンスの下で配布されています。文字エンコーディング変換、日付や通貨の書式変換、ユニコード対応の正規表現などの機能が必要なアプリケーション開発では標準的に利用されているので、既に利用経験のある開発者の方も多いでしょう。

PHP 6では、ソースコードからのビルド時に、あらかじめICUライブラリがインストールされていることが要求されます。組み込まれているICUのバージョン等は、phpinfo()関数の出力結果に表示されますので、一度確認してみるとよいでしょう。

では、PHP 6の具体的な国際化対応を見ていくことにしましょう。まず、php.iniで設定を行います。php.iniの「Unicode settings」セクションを以下のように変更した後、Apacheを再起動して設定を反映しましょう。

;;;;;;;;;;;;;;;;;;;;
; Unicode settings ;
;;;;;;;;;;;;;;;;;;;;

unicode.semantics = on　　　　　　　　　　　　　　　
unicode.runtime_encoding = utf-8
unicode.script_encoding = utf-8
unicode.output_encoding = utf-8
unicode.from_error_mode = U_INVALID_SUBSTITUTE
unicode.from_error_subst_char = 3f

php.iniのUnicode設定に関する主なディレクティブは、それぞれ以下のような意味を持ちます。

「unicode.semantics」: Unicode機能の有効・無効を切り替えます
「unicode.runtime_encoding」: 関数の引数、文字列連結、比較など、PHPスクリプトの実行時に内部的にバイナリ文字列を変換する際に使用するエンコーディングを指定します
「unicode.script_encoding」: スクリプトの記述に使用するエンコーディング
「unicode.output_encoding」: 出力エンコーディング。mbstring拡張では出力バッファを利用してエンコーディングの変換を行っていましたが、PHP 6ではechoやprintで出力されるデータが、この設定に従って自動的に変換されます

設定が済んだら、簡単なスクリプトを動かしてみます。これまでのPHPでは、国際化対応があくまでもエクステンションのレベルで行われていたため、言語自体のもつコアな関数には、マルチバイト文字について考慮されていないものも多々ありました。例えば、文字列を構成する「文字数」を返す「strlen」は、マルチバイト文字を引数にした場合に、文字数ではなくバイト数を返してしまいます。試しに、PHP 5以前の環境で以下のスクリプトを実行してみましょう(※)。

<?php
echo strlen('こんにちは');
?>

※ スクリプトのエンコーディング、mbstring.internal_encodingは共にUTF-8

「こんにちは」は5文字なのですが、結果としては「15」が返されるはずです。この問題を回避するためには、開発者が意識してmbstring拡張の「mb_strlen」関数や、iconv拡張の「iconv_strlen」関数を使うなどの対応が必要だったのです。

一方PHP 6では、コアな関数も国際化・UNICODEに対応していますので、unicode.semanticsがonならば、strlen関数も正しく「こんにちは」を「5文字」だと認識してくれます。

PHP 6と国際化

この連載の前後回

Members+ 会員限定記事

Google Geminiの活用方法第2回 Google Geminiの使い方

生成AIを戦略の軸としたGoogle Cloud、差別化は「選択肢と垂直統合」 - クリアンCEO

マイクロソフト、Copilot for Securityの最新の顧客事例を紹介‐セキュリティ人材不足にメス

PagerDuty、独自開発の運用に特化した生成AIについて説明

次世代移動通信システム「5G」とは第119回ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

「大阪から日本の教育を変えていく」レノボと大阪教育大学の挑戦

GitHub、2024年3月に発生したサービス低下の原因と対応を報告

Google Geminiの活用方法第2回 Google Geminiの使い方

DevSecOpsの15ステップを把握できるインタラクティブなインフォグラフィック

広告なしでのYouTube視聴を阻止、Googleが新方針を公表

新規格に完全対応したC言語/C++言語対応テストツール最新版

Microsoft、Exchange Onlineで一括メールの送信を制限

このカテゴリーについて

PHP 6と国際化

この連載の前後回

Members+ 会員限定記事

Google Geminiの活用方法 第2回 Google Geminiの使い方

生成AIを戦略の軸としたGoogle Cloud、差別化は「選択肢と垂直統合」 - クリアンCEO

マイクロソフト、Copilot for Securityの最新の顧客事例を紹介‐セキュリティ人材不足にメス

PagerDuty、独自開発の運用に特化した生成AIについて説明

次世代移動通信システム「5G」とは 第119回 ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

「大阪から日本の教育を変えていく」レノボと大阪教育大学の挑戦

GitHub、2024年3月に発生したサービス低下の原因と対応を報告

Google Geminiの活用方法 第2回 Google Geminiの使い方

DevSecOpsの15ステップを把握できるインタラクティブなインフォグラフィック

広告なしでのYouTube視聴を阻止、Googleが新方針を公表

新規格に完全対応したC言語/C++言語対応テストツール最新版

Microsoft、Exchange Onlineで一括メールの送信を制限

このカテゴリーについて

Google Geminiの活用方法第2回 Google Geminiの使い方

次世代移動通信システム「5G」とは第119回ソフトバンクがPayPayドームでARの実証、先端技術より枯れた技術のBLEを選んだ理由

Google Geminiの活用方法第2回 Google Geminiの使い方