ユニコードというのは、機械の中で使われる文字の1つだよ。
人間には、英語、日本語という言語があるように、機械にもユニコード(Unicode)やアスキーコード(ASCII)といった言葉があるんだよ。
小学生でもわかるように詳しく説明していくから心配しないでね。
ユニコードってなに?
コンピュータは日本語や英語といった言語の文字を、数字や文字に置き換えてあげないとだめなんだ。
日本語のユニコードも、数字や文字になるんだよ。
たとえば、
ひらがなの「あ」は「\u3042」
ひらながの「い」は「\u3044」
ひらながの「う」は「\u3046」
ひらながの「え」は「\u3048」
ひらながの「お」は「\u304a」
になる。
「こんにちは」は、「\u3053\u3093\u306b\u3061\u306f」となるよ。
人間の私たちから見ると、何が書いてあるのかさっぱり読めないね(笑)
でもコンピュータにとっては、この文字のほうが読みやすいんだ。
そして、文字には、全角と半角という種類があって、
12345は、全角(ぜんかく)
12345は、半角(はんかく)
になるし、コンピュータにとっては違う文字なんだ。
そして、機械が分かるのは「半角の英数字や記号」という決まりがあるんだけど
日本語の文字は全て全角(ぜんかく)として扱われるんだ。
だから、ひらがなの「あ」は「\u3042」になるんだね。
エンコードとデコード
データを「半角の英数字や記号」に変換することをコード化(符号化)、あるいはエンコードといい、元に戻すことをデコードというよ。
種類 | 説明 | コード化(符号化)、あるいはエンコード | ひらがなの「あ」を、文字コードの「\u3042」に変えること |
---|---|
デコード | 文字コードの「\u3042」を、ひらがなの「あ」に変えること |
文字コードには、ユニコード、ASCIIコード(アスキーコード)、Shift-JIS(シフトジス)、UTF-8(ユーティーエフエイト)などがあるんだ。
英語、日本語、ドイツ語、イタリア語、中国語のように種類があるんだね。
いろいろな文字コード
アスキーコードってなに?
半角の英数字や記号は、ASCIIコードと呼ばれていて、いろいろある文字コードのベースとなるものなんだ。
でも、アスキーコードには、日本語がないんだ。
もともとコンピュータは英語圏で生まれたからアルファベットと数字さえ使えれば問題なかったんだよ。
だから、最初は100文字弱の単純なものだったんだ。
Shift-JISってなに?
Shift-JISは「シフト ジス」と読むんだよ。
ASCIIコード(アスキーコード)の文字に日本語の文字を加えたものなんだ。
半角カタカナは1バイト、それ以外の全角文字は2バイトで表現するよ。
シフトジスによって、アスキーコードでは100文字しかなかった文字コードが、1万文字を超えるほどになったんだ。
UTF-8ってなに?
UTF-8は、「ユーティーエフエイト」と読むんだよ。
パソコンやスマホの画面でも使われることが多い文字コードなんだ。
UTF-8はASCIIコードと互換性があって、相性がいいんだ。だから世界中で多くの場面で使用されているんだよ。
まとめ
- 機械にも様々な言葉がある
- コンピュータは「半角の英数字や記号」しか分からない
- 人間の言語を「半角の英数字や記号」に変換することをコード化(符号化)、あるいはエンコードという
- 文字コードを人間の言語に変えることをデコードという
- 文字コードの種類には、ユニコード、アスキーコード、シフトジス、ユーティーエフエイトなどがある
コメント