エンコーディング - Unicode など

ローカルエンコーディングの確認と設定

1️⃣ 現在のシステムのローカルエンコーディングを確認します

Windows (cmd / PowerShell)

chcp

現在のコードページが表示されます。

950：繁體中文（Big5）
936: 簡体字中国語 (GBK)
65001：UTF-8

Linux / macOS (Terminal)

locale

チェックLANGまたはLC_CTYPE値、たとえば:

LANG=zh_TW.UTF-8

---

2️⃣ C++ プログラムの現在のエンコーディングを確認する

#include <clocale>
#include <iostream>

int main() {
    std::cout << "Current locale: " << std::setlocale(LC_ALL, nullptr) << std::endl;
}

Windowsでは通常、次のように表示されますCまたはChinese (Traditional)_Taiwan.950。

---

3️⃣ ローカルエンコーディングを設定する

Windows コマンドプロンプト (cmd)

chcp 65001

→ コマンドラインを UTF-8 に切り替えます。

PowerShell

$OutputEncoding = [Console]::OutputEncoding = [Text.Encoding]::UTF8

C++ プログラム内で設定する

#include <クロカレ>

int main() {
    std::setlocale(LC_ALL, "zh_TW.UTF-8"); // UTF-8に設定
}

または Windows で Big5 をセットアップする

std::setlocale(LC_ALL, "Chinese_Taiwan.950");

---

4️⃣ 推奨設定

.NET/Web と相互運用したい場合は、一律にUTF-8を使用することを推奨します。
VS プロジェクトは次の場所で入手できます。プロパティ→詳細→Rawファイル文字エンコーディング選ぶUTF-8。
コンソール出力が文字化けする場合は、次のことが組み合わされている可能性があります。
```
SetConsoleOutputCP(65001); //出力をUTF-8に設定します
SetConsoleCP(65001); //入力をUTF-8に設定します
```

永久コードを設定する

1️⃣ 問題の背景

使用chcp 65001現在のコマンドプロンプト (cmd) の文字エンコードは一時的にのみ変更できます。ウィンドウを閉じるか再起動すると、デフォルト値が復元されます（例:950ビッグ5）。システム全体とすべてのアプリケーションで UTF-8 を使用する場合は、Windows システムレベルで「地域設定」を変更する必要があります。

---

2️⃣ Windows 全体で UTF-8 を使用するように永続的に設定します。

ステップ 1: 地域設定を開く

オンにするコントロールパネル
選ぶ時計と地域 → 地域 (Region)
に切り替える管理(管理) ページネーション
クリックシステムロケールを変更します...

ステップ 2: UTF-8 を有効にする

下部を確認してください:
✅ ベータ: 世界的な言語サポートには Unicode UTF-8 を使用します (世界的な言語サポートには Unicode UTF-8 を使用します)
OKを押してシステムを再起動します

再起動後、Windows コンソール、C++、.NET、Python およびその他のプログラムのデフォルトのロケールは UTF-8 になります。

---

3️⃣ 効果があるか検証する

cmdで確認する

chcp

表示された場合:

Active code page: 65001

これは、UTF-8 がデフォルトになったことを意味します。

C++ で検証する

#include <clocale>
#include <iostream>

int main() {
    std::cout << "Current locale: " << std::setlocale(LC_ALL, nullptr) << std::endl;
}

---

4️⃣注意事項

一部の古いソフトウェアやドライバーは UTF-8 をサポートしていないため、文字化けが発生する可能性があります。
互換性の問題が発生した場合は、このボックスのチェックを外して Big5 に戻ることができます。
VSCode、Visual Studio、PowerShell などの最新のツールは、UTF-8 を完全にサポートしています。

---

5️⃣ 代替案 (システムを変更しない)

システム全体を UTF-8 に変換したくない場合は、特定のアプリケーションの起動パラメータまたはプログラム内設定を設定できます。

cmd /K chcp 65001

または、プログラム内で次のように呼び出します。

SetConsoleOutputCP(65001);
SetConsoleCP(65001);

Unicode escape sequences

基本的な概念

Unicode エスケープシーケンスは、純粋な ASCII 文字を使用して Unicode 文字を表現する方法です。プログラミング言語のソースコード、JSON、文字列定数、およびクロスプラットフォームデータ交換でよく使用されます。この表記は、環境によって特定の文字を直接入力または表示できない場合に使用されます。

\u フォーマットする

最も一般的な形式は次のとおりです\uXXXX、でXXXX4桁の16進数です。 Unicode コードポイントを表します。

\u0041 → A
\u00E9 → é
\u4E2D→中

\U形式

一部の言語（Pythonなど）でサポートされています\UXXXXXXXX、8 桁の 16 進数を使用して、すべての Unicode コードポイントを直接表現できます。

\U0001F600 → 😀

エージェントペア表現

16 ビット Unicode のみをサポートする環境 (JavaScript レガシー仕様など) では、超えるU+FFFF文字にはサロゲートペアが必要です。

\uD83D\uDE00 → 😀

一般的な言語の例

JavaScript


const s = "\u4E2D\u6587";

Python


s = "\u4E2D\u6587"
s2 = "\U0001F600"

JSON


{
  "text": "\u4E2D\u6587"
}

いつ使用するか

ソースコードのエンコーディングの不一致による文字化けを回避する
システム間および言語間のデータの正しい送信を保証する
ASCII のみの環境で非 ASCII 文字を表現する

URL Encoding

基本的な概念

URL エンコーディング (パーセントエンコーディングとも呼ばれる) は、文字を URL で安全に使用できる表現に変換する方法です。 URL では特定の ASCII 文字のみが許可され、残りはパーセントと 16 進数に変換する必要があります。

エンコード形式

エンコード形式は%HH、でHHこの文字のバイト値を 16 進数で表現したものです。 UTF-8 で文字が複数バイトを占める場合、それらは個別にエンコードされます。

空白→%20
! → %21
中 →%E4%B8%AD

予約文字

URL 内の一部の文字は特別なセマンティクスを持ち、予約文字と呼ばれます。エンコードが必要かどうかは、エンコードが使用される場所によって異なります。

予約されていない文字

次の文字は、エンコードせずに URL で直接使用できます。

A–Z a–z
0–9
- _ . ~

一般的な言語の例

JavaScript

encodeURIComponent("中国語テスト")
decodeURIComponent("%E4%B8%AD%E6%96%87%20test")

Python

urllib.parse から引用符をインポート、引用符を外す

quote("中国語テスト")
unquote("%E4%B8%AD%E6%96%87%20test")

プラス記号との違い

存在するapplication/x-www-form-urlencodedフォーマットでは、空白文字は次のようにエンコードされます。+、それよりも%20。 Still used in general URL paths%20。

いつ使用するか

URL に非 ASCII 文字が含まれている
構文の競合を避けるためにクエリパラメータを渡します
ブラウザーとサーバー間で一貫した解像度を確保

Hexadecimal Escapes

基本的な概念

16 進エスケープは、16 進数を使用して文字を表す方法です。特定のバイトまたは ASCII 文字を表すために、プログラミング言語の文字列定数でよく使用されます。

\x 形式

最も一般的な形式は次のとおりです\xHH、でHHは 2 桁の 16 進数です。バイト値を表し、通常は ASCII またはシングルバイト文字に対応します。

\x41 → A
\x61 → a
\x0A→改行

適用範囲

16 進エスケープはほとんどの場合、単一バイト配列でのみ機能します。 UTF-8 でエンコードされたマルチバイト文字を使用する場合は、それらを複数に分割する必要があります。\xHH。

中(UTF-8) →\xE4\xB8\xAD

共通言語のサポート

C / C++


char c = '\x41';

JavaScript


const s = "\x48\x65\x6C\x6C\x6F";

Python


s = "\x48\x65\x6C\x6C\x6F"

Unicode エスケープとの違い

バイト単位の 16 進エスケープ
Unicode コードポイントでの Unicode エスケープ
16 進エスケープは、低レベルのデータまたは ASCII に適しています。
Unicode Escapes は多言語テキストに適しています

いつ使用するか

バイト内容を正確に制御する必要がある
バイナリデータまたは通信プロトコルを処理する
印刷不可能な制御文字を示します

ASCIIエンコーディングテーブル

ASCII Hex 対応表
	0x0	0x1	0x2	0x3	0x4	0x5	0x6	0x7	0x8	0x9	0xA	0xB	0xC	0xD	0xE	0xF
0x00	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
0x10	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
0x20	␣	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
0x30	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
0x40	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
0x50	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
0x60	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
0x70	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL
0x80	Ç	ü	é	â	ä	à	å	ç	ê	ë	è	ï	î	ì	Ä	Å
0x90	É	æ	Æ	ô	ö	ò	û	ù	ÿ	Ö	Ü	¢	£	¥	₧	ƒ
0xA0	á	í	ó	ú	ñ	Ñ	ª	º	¿	⌐	¬	½	¼	¡	«	»
0xB0	░	▒	▓	│	┤	╡	╢	╖	╕	╣	║	╗	╝	╜	╛	┐
0xC0	└	┴	┬	├	─	┼	╞	╟	╚	╔	╩	╦	╠	═	╬	╧
0xD0	╨	╤	╥	╙	╘	╒	╓	╫	╪	┘	┌	█	▄	▌	▐	▀
0xE0	α	ß	Γ	π	Σ	σ	µ	τ	Φ	Θ	Ω	δ	∞	φ	ε	∩
0xF0	≡	±	≥	≤	⌠	⌡	÷	≈	°	∙	·	√	ⁿ	²	■

すべての漢字の Unicode 範囲

Unicode の漢字は主に次のセクションに配布されています。以下に、Unicode テーブル内の一般的な中国語文字 (Hanzi) の範囲と、各範囲の詳細な説明を示します。

Unicode 範囲の説明

CJK 統一表意文字 (中国語、日本語、韓国語の統一表意文字):主に最も一般的な漢字が含まれています。
CJK Unified Ideographs Extension A、B、C、D、E、F、G：これは、古代文字やあまり使用されないいくつかの文字を含む、より広範囲の漢字をカバーする補足領域です。
CJK 互換表意文字:他の文字システムと互換性があり、グリフの互換性要件によく使用される文字が含まれています。

各範囲の一覧

スコープ名	Unicode 範囲	説明する
CJK Unified Ideographs	4E00–9FFF	最も一般的な漢字範囲である基本的な中国語、日本語、韓国語の文字が含まれています。
CJK Unified Ideographs Extension A	3400–4DBF	拡張領域 A。あまり使用されない漢字が含まれます。
CJK Unified Ideographs Extension B	20000–2A6DF	拡張エリアBは主に古代文字と一部の珍しい漢字をカバーします。
CJK Unified Ideographs Extension C	2A700–2B73F	エリアCを拡張し、古代文字や希少文字をさらに拡充しました。
CJK Unified Ideographs Extension D	2B740–2B81F	拡張領域 D には、あまり使用されない漢字が含まれています。
CJK Unified Ideographs Extension E	2B820–2CEAF	エリアEを拡張し、主に珍しい漢字を追加します。
CJK Unified Ideographs Extension F	2CEB0–2EBEF	エリアFを拡大し、珍しい古代文字や漢字も収録。
CJK Unified Ideographs Extension G	30000–3134F	拡張G領域は、最近追加された漢字領域です。
CJK Compatibility Ideographs	F900–FAFF	日本語のグリフの異なるグリフなど、古い文字セットシステムとの互換性のための互換ゾーン。

要約する

上記の範囲にはほとんどの漢字が含まれており、現代漢字、古代文字、互換文字など、さまざまなニーズを満たすためにさまざまな地域に配布されています。中国語のフォントデザインまたは文字分析の場合、これらの範囲は完全なフォントサポートを提供します。

Unicode Icons

UTF-8文字テーブル

email: [email protected]

T:0000

資訊與搜尋 | 回dev首頁
email: Yan Sa [email protected] Line: 阿央

電話: 02-27566655 ,03-5924828

阿央
泱泱科技
捷昱科技泱泱企業

中文

DE

EN

KO

RU

エンコーディング - Unicode など

コンピュータの使用

ローカルエンコーディングの確認と設定

1️⃣ 現在のシステムのローカルエンコーディングを確認します

Windows (cmd / PowerShell)

Linux / macOS (Terminal)

2️⃣ C++ プログラムの現在のエンコーディングを確認する

3️⃣ ローカルエンコーディングを設定する

Windows コマンドプロンプト (cmd)

PowerShell

C++ プログラム内で設定する

または Windows で Big5 をセットアップする

4️⃣ 推奨設定

永久コードを設定する

1️⃣ 問題の背景

2️⃣ Windows 全体で UTF-8 を使用するように永続的に設定します。

ステップ 1: 地域設定を開く

ステップ 2: UTF-8 を有効にする

3️⃣ 効果があるか検証する

cmdで確認する

C++ で検証する

4️⃣注意事項

5️⃣ 代替案 (システムを変更しない)

Unicode escape sequences

基本的な概念

\u フォーマットする

\U形式

エージェントペア表現

一般的な言語の例

いつ使用するか

URL Encoding

基本的な概念

エンコード形式

予約文字

予約されていない文字

一般的な言語の例

プラス記号との違い

いつ使用するか

Hexadecimal Escapes

基本的な概念

\x 形式

適用範囲

共通言語のサポート

Unicode エスケープとの違い

いつ使用するか

ASCIIエンコーディングテーブル

すべての漢字の Unicode 範囲

Unicode 範囲の説明

各範囲の一覧

要約する

Unicode Icons