Kodierung – Unicode usw.

Überprüfen Sie die lokale Kodierung und legen Sie sie fest

1️⃣ Überprüfen Sie die lokale Kodierung des aktuellen Systems

Windows (cmd / PowerShell)

chcp

Die aktuelle Codepage wird angezeigt:

950: Traditionelles Chinesisch (Big5)
936: Vereinfachtes Chinesisch (GBK)
65001：UTF-8

Linux / macOS (Terminal)

locale

ÜberprüfenLANGoderLC_CTYPEWert, zum Beispiel:

LANG=zh_TW.UTF-8

---

2️⃣ Überprüfen Sie die aktuelle Codierung im C++-Programm

#include <clocale>
#include <iostream>

int main() {
    std::cout << "Current locale: " << std::setlocale(LC_ALL, nullptr) << std::endl;
}

Unter Windows wird normalerweise etwas wie angezeigtCoderChinese (Traditional)_Taiwan.950。

---

3️⃣ Stellen Sie die lokale Kodierung ein

Windows-Eingabeaufforderung (cmd)

chcp 65001

→ Befehlszeile auf UTF-8 umstellen.

PowerShell

$OutputEncoding = [Console]::OutputEncoding = [Text.Encoding]::UTF8

Wird innerhalb eines C++-Programms festgelegt

#include <clocale>

int main() {
    std::setlocale(LC_ALL, "zh_TW.UTF-8"); // Auf UTF-8 setzen
}

Oder richten Sie Big5 in Windows ein

std::setlocale(LC_ALL, "Chinese_Taiwan.950");

---

4️⃣ Empfohlene Einstellungen

Wenn Sie mit .NET/Web interagieren möchten,Es wird empfohlen, einheitlich UTF-8 zu verwenden。
VS-Projekte sind verfügbar unterEigenschaften → Erweitert → Zeichenkodierung für RohdateienwählenUTF-8。

Wenn die Konsolenausgabe verstümmelt ist, kann sie mit Folgendem kombiniert werden:

SetConsoleOutputCP(65001); //Setzen Sie die Ausgabe auf UTF-8
SetConsoleCP(65001); //Eingabe auf UTF-8 setzen

Permanenten Code festlegen

1️⃣ Problemhintergrund

verwendenchcp 65001Sie können die Zeichenkodierung der aktuellen Eingabeaufforderung (cmd) nur vorübergehend ändern. Sobald das Fenster geschlossen oder neu gestartet wird, wird der Standardwert wiederhergestellt (z. B.950Big5). Wenn Sie möchten, dass das gesamte System und alle Anwendungen UTF-8 verwenden, müssen Sie die „Regionalen Einstellungen“ auf Windows-Systemebene ändern.

---

2️⃣ Stellen Sie das gesamte Windows dauerhaft auf die Verwendung von UTF-8 ein

Schritt 1: Öffnen Sie die regionalen Einstellungen

einschaltenBedienfeld
wählenUhren und Regionen → Regionen (Region)
wechseln zuverwalten(Administrative) Paginierung
KlickenSystemgebietsschema ändern...

Schritt 2: Aktivieren Sie UTF-8

Überprüfen Sie die Unterseite:
✅ Beta: Verwenden Sie Unicode UTF-8 für weltweite Sprachunterstützung (Verwenden Sie Unicode UTF-8 für weltweite Sprachunterstützung)
Drücken Sie OK und starten Sie das System neu

Nach dem Neustart ist das Standardgebietsschema der Windows-Konsole, von C++, .NET, Python und anderen Programmen UTF-8.

---

3️⃣ Überprüfen Sie, ob es wirksam ist

Überprüfen Sie in cmd

chcp

Falls angezeigt:

Active code page: 65001

Dies bedeutet, dass UTF-8 zum Standard geworden ist.

Validieren Sie in C++

#include <clocale>
#include <iostream>

int main() {
    std::cout << "Current locale: " << std::setlocale(LC_ALL, nullptr) << std::endl;
}

---

4️⃣ Vorsichtsmaßnahmen

Einige ältere Software oder Treiber unterstützen UTF-8 nicht und können zu verstümmelten Zeichen führen.
Wenn Kompatibilitätsprobleme auftreten, können Sie dieses Kontrollkästchen deaktivieren und zu Big5 zurückkehren.
Moderne Tools wie VSCode, Visual Studio und PowerShell unterstützen UTF-8 vollständig.

---

5️⃣ Alternativen (ohne das System zu verändern)

Wenn Sie nicht möchten, dass das gesamte System auf UTF-8 umgestellt wird, können Sie für bestimmte Anwendungen Startparameter oder programminterne Einstellungen festlegen:

cmd /K chcp 65001

Oder rufen Sie im Programm auf:

SetConsoleOutputCP(65001);
SetConsoleCP(65001);

Unicode escape sequences

Grundlegende Konzepte

Die Unicode-Escape-Sequenz ist eine Methode zur Darstellung von Unicode-Zeichen mithilfe reiner ASCII-Zeichen. Wird häufig im Quellcode von Programmiersprachen, JSON, String-Konstanten und dem plattformübergreifenden Datenaustausch verwendet. Diese Notation wird verwendet, wenn die Umgebung ein bestimmtes Zeichen nicht direkt eingeben oder anzeigen kann.

\u-Format

Das gebräuchlichste Format ist\uXXXX,InXXXXist eine 4-stellige Hexadezimalzahl, Stellt einen Unicode-Codepunkt dar.

\u0041 → A
\u00E9 → é
\u4E2D→ mittel

\U-Format

Unterstützt von einigen Sprachen (z. B. Python)\UXXXXXXXX, mit 8 hexadezimalen Ziffern, Alle Unicode-Codepunkte können direkt dargestellt werden.

\U0001F600 → 😀

Agentenpaardarstellung

In Umgebungen, die nur 16-Bit-Unicode unterstützen (z. B. die JavaScript-Legacy-Spezifikation), überschreitenU+FFFFDie Zeichen erfordern ein Ersatzpaar.

\uD83D\uDE00 → 😀

Beispiele für gängige Sprachen

JavaScript


const s = "\u4E2D\u6587";

Python


s = "\u4E2D\u6587"
s2 = "\U0001F600"

JSON


{
  "text": "\u4E2D\u6587"
}

Wann zu verwenden

Vermeiden Sie verstümmelte Zeichen, die durch inkonsistente Quellcode-Kodierung verursacht werden
Stellen Sie die korrekte Übertragung system- und sprachübergreifender Daten sicher
Stellen Sie Nicht-ASCII-Zeichen in einer reinen ASCII-Umgebung dar

URL Encoding

Grundlegende Konzepte

URL-Kodierung (auch bekannt als Prozentkodierung) ist eine Möglichkeit, Zeichen in eine Darstellung umzuwandeln, die für die Verwendung in URLs sicher ist. URLs erlauben nur bestimmte ASCII-Zeichen, der Rest muss in Prozent plus Hexadezimal umgewandelt werden.

Codierungsformat

Das Codierungsformat ist%HH,InHHIst die hexadezimale Darstellung des Bytewerts dieses Zeichens. Wenn Zeichen unter UTF-8 mehrere Bytes belegen, werden sie separat codiert.

leer →%20
! → %21
Mittel →%E4%B8%AD

reservierte Zeichen

Einige Zeichen in URLs haben eine besondere Semantik und werden als reservierte Zeichen bezeichnet. Ob eine Kodierung erforderlich ist, hängt davon ab, wo sie verwendet wird.

Nicht reservierte Charaktere

Die folgenden Zeichen können ohne Kodierung direkt in URLs verwendet werden.

A–Z a–z
0–9
- _ . ~

Beispiele für gängige Sprachen

JavaScript

encodeURIComponent("Chinesischer Test")
decodeURIComponent("%E4%B8%AD%E6%96%87%20test")

Python

aus urllib.parse import quote, unquote

quote("Chinesisch-Test")
unquote("%E4%B8%AD%E6%96%87%20test")

Unterschied zum Pluszeichen

existierenapplication/x-www-form-urlencodedIm Format Leerzeichen werden als kodiert+, statt%20. Wird immer noch in allgemeinen URL-Pfaden verwendet%20。

Wann zu verwenden

Die URL enthält Nicht-ASCII-Zeichen
Übergeben Sie Abfrageparameter, um Syntaxkonflikte zu vermeiden
Sorgen Sie für eine konsistente Auflösung über Browser und Server hinweg

Hexadecimal Escapes

Grundlegende Konzepte

Hexadezimal-Escapezeichen sind eine Möglichkeit, hexadezimale Zahlen zur Darstellung von Zeichen zu verwenden. Wird häufig in Zeichenfolgenkonstanten in Programmiersprachen verwendet, um bestimmte Bytes oder ASCII-Zeichen darzustellen.

\x-Format

Das gebräuchlichste Format ist\xHH,InHHist eine zweistellige Hexadezimalzahl, Stellt einen Bytewert dar, der normalerweise ASCII oder einem einzelnen Bytezeichen entspricht.

\x41 → A
\x61 → a
\x0A→ Zeilenvorschub

Anwendungsbereich

Hexadezimale Escapes funktionieren meist nur mit Einzelbyte-Arrays, Wenn Sie UTF-8-codierte Multibyte-Zeichen verwenden, müssen Sie diese in mehrere aufteilen\xHH。

Mittel (UTF-8) →\xE4\xB8\xAD

Gemeinsame Sprachunterstützung

C / C++


char c = '\x41';

JavaScript


const s = "\x48\x65\x6C\x6C\x6F";

Python


s = "\x48\x65\x6C\x6C\x6F"

Unterschiede zu Unicode-Escapes

Hexadezimale Escapezeichen in Bytes
Unicode-Escapes in Unicode-Codepunkten
Hexadezimale Escapezeichen eignen sich besser für Low-Level-Daten oder ASCII
Unicode Escapes eignet sich besser für mehrsprachigen Text

Wann zu verwenden

Erfordert eine genaue Kontrolle über den Byteinhalt
Binäre Daten oder Kommunikationsprotokolle verarbeiten
Gibt ein nicht druckbares Steuerzeichen an

ASCII-Kodierungstabelle

ASCII-Hex-Korrespondenztabelle
	0x0	0x1	0x2	0x3	0x4	0x5	0x6	0x7	0x8	0x9	0xA	0xB	0xC	0xD	0xE	0xF
0x00	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
0x10	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
0x20	␣	!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
0x30	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
0x40	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
0x50	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
0x60	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o
0x70	p	q	r	s	t	u	v	w	x	y	z	{	\|	}	~	DEL
0x80	Ç	ü	é	â	ä	à	å	ç	ê	ë	è	ï	î	ì	Ä	Å
0x90	É	æ	Æ	ô	ö	ò	û	ù	ÿ	Ö	Ü	¢	£	¥	₧	ƒ
0xA0	á	í	ó	ú	ñ	Ñ	ª	º	¿	⌐	¬	½	¼	¡	«	»
0xB0	░	▒	▓	│	┤	╡	╢	╖	╕	╣	║	╗	╝	╜	╛	┐
0xC0	└	┴	┬	├	─	┼	╞	╟	╚	╔	╩	╦	╠	═	╬	╧
0xD0	╨	╤	╥	╙	╘	╒	╓	╫	╪	┘	┌	█	▄	▌	▐	▀
0xE0	α	ß	Γ	π	Σ	σ	µ	τ	Φ	Θ	Ω	δ	∞	φ	ε	∩
0xF0	≡	±	≥	≤	⌠	⌡	÷	≈	°	∙	·	√	ⁿ	²	■

Unicode-Bereich für alle chinesischen Schriftzeichen

Chinesische Schriftzeichen in Unicode werden hauptsächlich in den folgenden Abschnitten behandelt. Im Folgenden werden die Bereiche gebräuchlicher chinesischer Schriftzeichen (Hanzi) in der Unicode-Tabelle sowie detaillierte Beschreibungen der einzelnen Bereiche aufgeführt.

Beschreibung des Unicode-Bereichs

CJK Einheitliche Ideogramme (chinesische, japanische und koreanische einheitliche Ideogramme):Enthält hauptsächlich die gebräuchlichsten chinesischen Schriftzeichen.
CJK Unified Ideographs Extension A、B、C、D、E、F、G：Dies ist ein ergänzender Bereich, der ein breiteres Spektrum chinesischer Schriftzeichen abdeckt, einschließlich alter Schriftzeichen und einiger weniger häufig verwendeter Schriftzeichen.
CJK-Kompatibilitätsideogramme:Enthält Zeichen, die mit anderen Zeichensystemen kompatibel sind und häufig für Glyphenkompatibilitätsanforderungen verwendet werden.

Liste aller Bereiche

Bereichsname	Unicode-Bereich	veranschaulichen
CJK Unified Ideographs	4E00–9FFF	Enthält grundlegende chinesische, japanische und koreanische Zeichen, den häufigsten chinesischen Zeichenbereich.
CJK Unified Ideographs Extension A	3400–4DBF	Erweiterter Bereich A, der weniger häufig verwendete chinesische Schriftzeichen enthält.
CJK Unified Ideographs Extension B	20000–2A6DF	Der erweiterte Bereich B umfasst hauptsächlich alte Schriftzeichen und einige seltene chinesische Schriftzeichen.
CJK Unified Ideographs Extension C	2A700–2B73F	Bereich C wurde erweitert, um alte Charaktere und seltene Charaktere weiter zu erweitern.
CJK Unified Ideographs Extension D	2B740–2B81F	Der erweiterte Bereich D enthält selten verwendete chinesische Schriftzeichen.
CJK Unified Ideographs Extension E	2B820–2CEAF	Erweitern Sie Bereich E und fügen Sie hauptsächlich seltenere chinesische Schriftzeichen hinzu.
CJK Unified Ideographs Extension F	2CEB0–2EBEF	Erweiterter Bereich F, einschließlich seltenerer alter Schriftzeichen und chinesischer Schriftzeichen.
CJK Unified Ideographs Extension G	30000–3134F	Der erweiterte G-Bereich ist der zuletzt hinzugefügte Bereich für chinesische Schriftzeichen.
CJK Compatibility Ideographs	F900–FAFF	Kompatibilitätszone für Kompatibilität mit älteren Zeichensatzsystemen, z. B. unterschiedliche Glyphen für japanische Glyphen.

Zusammenfassen

Das oben aufgeführte Sortiment umfasst die meisten chinesischen Schriftzeichen und wird in vielen verschiedenen Bereichen vertrieben, um unterschiedlichen Anforderungen gerecht zu werden, einschließlich moderner chinesischer Schriftzeichen, alter Schriftzeichen und kompatibler Schriftzeichen. Für das Design chinesischer Schriftarten oder die Zeichenanalyse bieten diese Bereiche vollständige Unterstützung für Schriftarten.

Unicode Icons

UTF-8-Zeichentabelle

email: [email protected]

T:0000

資訊與搜尋 | 回dev首頁
email: Yan Sa [email protected] Line: 阿央

電話: 02-27566655 ,03-5924828

阿央
泱泱科技
捷昱科技泱泱企業

中文

EN

JA

KO

RU

Kodierung – Unicode usw.

Computernutzung

Überprüfen Sie die lokale Kodierung und legen Sie sie fest

1️⃣ Überprüfen Sie die lokale Kodierung des aktuellen Systems

Windows (cmd / PowerShell)

Linux / macOS (Terminal)

2️⃣ Überprüfen Sie die aktuelle Codierung im C++-Programm

3️⃣ Stellen Sie die lokale Kodierung ein

Windows-Eingabeaufforderung (cmd)

PowerShell

Wird innerhalb eines C++-Programms festgelegt

Oder richten Sie Big5 in Windows ein

4️⃣ Empfohlene Einstellungen

Permanenten Code festlegen

1️⃣ Problemhintergrund

2️⃣ Stellen Sie das gesamte Windows dauerhaft auf die Verwendung von UTF-8 ein

Schritt 1: Öffnen Sie die regionalen Einstellungen

Schritt 2: Aktivieren Sie UTF-8

3️⃣ Überprüfen Sie, ob es wirksam ist

Überprüfen Sie in cmd

Validieren Sie in C++

4️⃣ Vorsichtsmaßnahmen

5️⃣ Alternativen (ohne das System zu verändern)

Unicode escape sequences

Grundlegende Konzepte

\u-Format

\U-Format

Agentenpaardarstellung

Beispiele für gängige Sprachen

Wann zu verwenden

URL Encoding

Grundlegende Konzepte

Codierungsformat

reservierte Zeichen

Nicht reservierte Charaktere

Beispiele für gängige Sprachen

Unterschied zum Pluszeichen

Wann zu verwenden

Hexadecimal Escapes

Grundlegende Konzepte

\x-Format

Anwendungsbereich

Gemeinsame Sprachunterstützung

Unterschiede zu Unicode-Escapes

Wann zu verwenden

ASCII-Kodierungstabelle

Unicode-Bereich für alle chinesischen Schriftzeichen

Beschreibung des Unicode-Bereichs

Liste aller Bereiche

Zusammenfassen

Unicode Icons