| |
colderです
> http://dobon.net/vb/dotnet/string/issurrogatepair.html
>
> の「結合文字が含まれているか調べる」の所を見ると、
>
> Marksカテゴリにすべての結合文字が含まれているか、そして、
> 結合文字以外の文字が一切含まれていないかについては、はっ
> きりしていません。ご存じの方がいらっしゃいましたら、コメ
> ントで教えていただけると助かります。
>
> みたいに書いてあって、なんだかはっきりしないです。
http://blogs.wankuma.com/naka/archive/2008/01/30/119963.aspx
ここのコメント欄によると
Unicode 5.0ではD52にGeneral CategoryがMc, Mn, Meの文字すべてと明記されて
いますけど?
とあって、Marksカテゴリの文字はすべて結合文字と考えて良さそうです
で、Marksカテゴリの文字の一覧は
ftp://ftp.unicode.org/Public/UNIDATA/UnicodeData.txt
ここから3番目のフィールドで抽出すれば得られます
で、˥ ˦ ˧ ˨ ˩ などは、カテゴリがSkになっていて、こ
れは前の文字によっては結合文字になるものみたいで、
どういうときに結合文字になるのかよく分からないです、
|
|