Home > 日々雑記 > Unicodeの森

Unicodeの森

  • 2010年1月 9日 15:01
  • 日々雑記
  • Unicodeの森

ときどき、文字コードをとても意識しないといけない場面に遭遇する。

他からの入力がUCS2で、でも相手にはUTF-8で渡さないといけない、とか。

たまにしかUnicodeの細かいところを意識してないとすぐに混乱する。


UCS2、UCS4、UTF-8、UTF-16、Unicode、サロゲートペア...

どれがどれにあたるんだっけ、という具合。

さらに処理系、使ってるプログラム言語によっての扱い方の違いとかが入ってくると、さらに混乱。

とりあえず、昨日分かったのは「Javaのchar型はUTF-16なんだけど、サロゲートペアを考慮すると1文字32ビット表記ということもあるのでchar 2つで表記される場合もある」と。

いろいろ調べて勉強になった。サロゲートペアって用語だけは知っていたけど具体的にどういうことなのか、必要に迫られて調べてようやく理解できた。

Charactor.toChars()でU+10000以降のコードをサロゲートペアで返してくれるということも。

まぁ、知ってる人からは常識じゃんって話しですよねぇ...。

Comments:0

Comment Form

Trackbacks:0

TrackBack URL for this entry
http://www.swingingblue.net/mt/mt-tb.cgi/2361
Listed below are links to weblogs that reference
Unicodeの森 from きままな日記帳

Home > 日々雑記 > Unicodeの森

Feeds

Return to page top