アシアルブログ

アシアルの中の人が技術と想いのたけをつづるブログです

mb_eregで日本語検索すると・・

こんばんは、笹亀です。
技術ブログの当番が自分にも回ってきました。
何を書かせていただこうかと考えに考えたのですが、
難しいことをご紹介するのは優秀な技術者の皆さんにお任せする方向にします(笑

私は、PHPを使いなれている人もそうでない人も、
普通に使っているとあまり知らない問題を紹介したいと思います。

今回、実際に使用していた関数はmb_ereg関数で、
日本語(マルチバイト)の文字列を正規表現マッチを行なう関数ですね。

実験した環境は、
内部エンコーディングは「UTF-8」と設定しています。
ファイルは「EUC-JP」で実験してみました。

まずは、普通にmb_ereg関数を使用してみました。
違いが出るかもしれないとおもい、eregも追加しました。


<?php
var_dump(mb_ereg("と", "タイトルイと2あああああ"));

var_dump(mb_ereg("タイトル", "タイトル2あああああ"));

var_dump(ereg("と", "タイトルイと2あああああ"));

var_dump(ereg("タイトル", "タイトル2あああああ"));

//全部trueだと思ってテスト
?>

結果はこうなりました。


bool(false) bool(false) int(1) int(1) 


「なんでereg関数だけがtrueなんだろうか?」
日本語を使用しているので、
eregではなくやっぱりmb_eregを使ってパターンマッチさせたいと思いますよね・・・
文字コードや日本語問題で悩んだときに、必ず「日本人を辞めたい」と思ってしまうのは僕だけでしょうか?

さぁ・・気を取り直して問題解決のためにいろいろ調べておりました。
原因は簡単なことでした。
「mb_regex_encoding」でマルチバイト対応の正規表現を使用される文字エンコーディングの設定が、
使用エンコードと違うため誤動作をしていたみたいです。

上記の設定をしないでマルチバイト対応の正規表現を使用すると内部文字エンコーディングに設定されてしまいます。
これにより、下記のように記述しました。


<?php 
mb_regex_encoding("EUC-JP");

var_dump(mb_ereg("と", "タイトルイと2あああああ"));

var_dump(mb_ereg("タイトル", "タイトル2あああああ"));

var_dump(ereg("と", "タイトルイと2あああああ"));

var_dump(ereg("タイトル", "タイトル2あああああ"));

//今度こそ全部trueだと思ってテスト
?>

結果


int(1) int(1) int(1) int(1) 

やっと、思い通りに動作してくれました。
「mb_regex_encoding」の設定の存在に気が付けばすぐに解決はできますね。

普段は内部エンコーディングとファイルの文字コードなどは統一された環境が一般的だと思います。そういったときには上記の設定を意識せずに使うことができるのでこの関数を使用して設定の変更を行なうことはないと思います。
しかし、今回の自分の環境がちょっと不思議な環境だったので、
こういった問題が起こりました。

おまけで、気になったのでこんなことをしてみました。
mb_regex_encoding()で文字コードの指定をしないと内部文字エンコーディングに依存するなら、下記のようになっていたら動きそうな気がしてテストしてみました。


<?php 
mb_internal_encoding("EUC-JP");

var_dump(mb_ereg("と", "タイトルイと2あああああ"));

var_dump(mb_ereg("タイトル", "タイトル2あああああ"));

var_dump(ereg("と", "タイトルイと2あああああ"));

var_dump(ereg("タイトル", "タイトル2あああああ"));

//mb_eregは「mb_regex_encoding」の指定がないと内部エンコーディングを参照するらしいので、
//内部エンコーディングの設定を変えたらきっと変わって動いてくれるはずだ・・
?>


結果


bool(false) bool(false) int(1) int(1) 

あれ?見事に期待を裏切ってくれました。



<?php 
mb_internal_encoding("EUC-JP");
print mb_regex_encoding();
?>

確認で上記のテストをしてみると・・・
UTF-8」と表示されました。
内部エンコーディングを手動で変更しても、
mb_regex_encodingのデフォルトにはなってくれないみたいです。

関数でも使い方によってはちゃんと動いたり動かなかったりと、
このようなものを見つけたときは不思議とエンジニアの血が騒ぎます。
こういったことが好きな方でつい、
いろんなことをしたくなってしまいます。

皆さんも「他にもこういった面白い動作するものがある」とかありましたら、
是非、教えてください。