みかん箱

ささいなことからそれなりなことまでの日々の記録です。

| Admin |

2025.11«
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
» 2026.01

[54] [53] [52] [51] [50] [49] [48] [47] [46] [45] [44]

category:
DATE : 2025/12/13 (Sat)

[PR]

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

category: Java
DATE : 2006/05/09 (Tue)

文字列中の文字数を数えるメモ

Java SE 5 以前では、文字列の文字数を数えるために java.lang.String#length() を使っていました。

Java で文字を表す char 型は2バイト幅です。また、文字は UTF-16 として表現されています。上記 length メソッドの javadoc にもあるように、java.langString#length() は純粋に char 型の値の数を求めます。

しかし、 Java SE 5 から、 Unicode 4.0 がサポートされました。Unicode 4.0 では、UTF-32 という文字エンコーディングが制定されました。つまり、Unicode 4.0 では、4バイト幅の文字コードも存在することになります。4バイト幅の文字コードを UTF-16 で表現する場合は、上位2バイトと下位2バイトを別々にして表現します（従来の2バイト幅や1バイト幅の文字コードはそのままです）。

すると、4バイト幅の文字コードは、char 型のデータとしては2つ必要になります。2つの char データで1文字を表すことになるわけです。

そうなると、java.lang.String#length() の結果が狂ってしまいます。純粋に char 型のデータの数を返すので、4バイト幅の文字が1文字からなる文字列では「2」という結果が返ってきます。

そこで、Java SE 5では java.lang.String#codePointCount(int, int) が追加されました。今後、文字数を数える際にはこらちのメソッドを使うとよいかもしれません。

ちなみに、文字列全体の文字数を求めるコードは以下のようになります。


（s は java.io.String の変数）



int length = s.codePointCount(0, s.length());

参考文献

コメント(1) 　　トラックバック()

●この記事にコメントする

★無題

NAME: MT

(ﾟ∀ﾟ)ｱﾋｬ
(ﾟ∀ﾟ)ｱﾋｬ
(ﾟ∀ﾟ)ｱﾋｬ
(ﾟ∀ﾟ)ｱﾋｬ
(・∀・)ｱﾋｬ
(ﾟ∀ﾟ)ｱﾋｬ

2006/05/10(Wed)13:37:32 編集

●この記事へのトラックバック

この記事にトラックバックする：

<< しばらくお絵かきモード｜HOME｜CSV ファイルを読み込む >>

忍者ブログ [PR]

ブログ内検索

Twitter

リンク

NICOLA

GitHub

カレンダー

2025/12

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

RSS

RSS 0.91

RSS 1.0

RSS 2.0

使用許諾

このウェブサイトは、クリエイティブ・コモンズ・ライセンスの下でライセンスされています。