Hatena::Groupasakura

浅倉卓司@blog風味? このページをアンテナに追加 RSSフィード

Error : RSSが取得できませんでした。

2004-01-18(Sun)

正規表現で日本語を扱う場合

|  正規表現で日本語を扱う場合 - 浅倉卓司@blog風味? を含むブックマーク  正規表現で日本語を扱う場合 - 浅倉卓司@blog風味? のブックマークコメント

 Perl5.8の正規表現で日本語を扱う場合、euc-jpとutf8のどちらがパフォーマンスが良いかちょっと試したところ、やっぱりutf8のほうが良かった。

 utf8→euc-jpの変換を加えてもutf8のほうが速い。入力から出力までeuc-jpのまま処理する場合なら、euc-jp→utf8→euc-jpという変換があるとさすがにeuc-jpのまま処理したほうが速かったけど。

 というわけで、encodingの変換がある(可能性がある)場合は、基本的にはutf8で処理したほうが効率がいいという、当たり前の結論になりましたとさ。つまらない……。


 とりあえずPOPFileの日本語パッチをutf8で書き直す理由にはなりそうなので*1、ぼちぼちといじってみますかね。

*1:ちなみに、現状のような形でkakasiを使うのが一番パフォーマンス悪いです。

トラックバック - http://asakura.g.hatena.ne.jp/asakura-t/20040118
2004 | 01 | 02 | 03 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2005 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2006 | 01 | 02 | 03 | 04 | 05 | 06 | 08 | 09 | 10 | 11 | 12 |
2007 | 02 | 03 | 04 | 05 | 06 | 07 | 10 | 11 | 12 |
2008 | 02 | 03 | 04 | 06 | 09 | 10 | 11 | 12 |
2009 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 09 | 10 | 11 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2011 | 01 | 02 | 03 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2012 | 02 | 03 | 04 | 05 | 07 | 08 | 10 | 11 | 12 |
2013 | 01 | 05 | 07 |
2014 | 01 | 02 |
2016 | 01 |
2017 | 01 | 05 |