テキスト表現
テキスト中の各文字は、文字コードと呼ばれるビットパターンに対応させることによって表現される。
ASCII
通信機器が開発された初期の頃は、多くの文字コード体系が存在しており、通信上の問題が多く発生していたが、ANSI(アンシー:アメリカ規格協会)がASCII(アスキー)を採用したことで、これをもとに標準化が進んでいった。
ASCIIは、7ビットのパターンによって英語のアルファベットや数字、句読点や改行文字などを表現している。
ASCIIコードについて詳しくはASCII - Wikipediaを参照。
ISO(アイ・エス・オー:国際標準化機構)は、英語以外の主要言語にも適合するように多くのASCII拡張版を開発した。それらの多くは、ASCIIの7ビットに1ビットを加えた、8ビット(1バイト)によって表現されている。
Unicode
ISOの拡張ASCIIでは、日本語を含むアジアなどの言語に対応するには不十分であることや、世界中の言語をひとつのコード体系で表現しようとする動きが活発化してきたことで、コンピュータの有力企業が協力してUnicode(ユニコード)というコード体系を開発し、現在では急速に普及している。
Unicodeは、16ビット(2バイト)で表現され、最大65,536文字を扱うことができる。
Unicodeについて詳しくはUnicode一覧表 - Wikipediaを参照。
日本の文字コード
Shift_JIS
Shift_JIS(シフトジス)は日本語を表す文字コードとして、現在多くのパソコンで使用されている。マイクロソフトなどが中心となって開発が行われ、JIS(ジス:日本工業規格)によって標準化された。
EUC
UNIXでよく使用される標準的な文字コードで、日本語EUCは、EUC-JPとも呼ばれる。EUCには韓国語版や中国語版などもある。
機種依存文字
コンピュータの機種によって、独自に拡張されている記号などは機種依存文字、または環境依存文字と呼ばれる。機種依存文字はコンピュータの機種によってビットパターンが異なるため、文字が表示されないことや文字化けなどの現象が起こる。
テキストファイル
文字コードによって符号化されたファイルはテキストファイルと呼ばれる。テキストファイルは、文字コードによって表わされるデータだけが含まれるファイルのことであり、マイクロソフトのWordのようなソフトウェアで記述された文字のフォントや書式などの属性データが含まれているファイルは、テキストファイルとは異なる。このようなテキストファイル以外のファイルは、バイナリファイルと呼ばれる。