Intereting Posts

请解释在这个结构初始化C代码中使用'：'和结尾的'，' 编译程序的Linux 32位与64位 CentOS 6.3上eth0和venet0configuration的区别在clang ++和libc ++上的std :: cerr会导致SIGABRT 我可以使用QT Creator进行C编程吗？ .eh_frame和.eh_frame_hdr部分存储的是什么？如何在Windows 7机器上通过cmd提示启动appium节点服务器 Linux中的全局variables.ko多个设备哪个Eclipse版本要安装在Linux上用于PHP开发将Python上的evdev与HID访问集成到Python中如何在OSX上通过vswprintf格式化宽string（想返回std :: wstring）这个OpenMP代码崩溃的Linux UWP：如何获取任务栏高度是否可以忽略UnMapViewOFFile（）的错误487（ERROR_INVALID_ADDRESS）？在Linux下捕获Wireshark时以太网FCS

内部和外部编码与Unicode

由于在这个问题的评论中有很多海报传播的错误信息： C ++ ABI问题清单

我已经创build了这个澄清。

什么是用于C风格string的编码？
Linux使用UTF-8编码string？
外部编码如何与窄string和宽string使用的编码相关？

实现定义。甚至应用程序定义; 该标准并没有对应用程序对它们做什么限制，并且期望很多依赖于语言环境的行为。所有真正实现的定义是在字符串中使用的编码。
凭什么。大部分操作系统都忽略了大部分的编码。如果'\0'不是一个'\0'字节，那么你将会遇到问题，但是即使EBCDIC也符合这个要求。否则，取决于上下文，将会有一些额外的字符，可能是重要的（例如路径名中的'/' ）。所有这些都使用Unicode中的前128个编码，所以在UTF-8中将有单字节编码。作为一个例子，我在Linux下使用了UTF-8和ISO 8859-1作为文件名。唯一真正的问题是显示它们：例如，如果您在xterm执行ls ，则ls和xterm将假定文件名与显示字体的编码方式相同。
这主要取决于语言环境。根据语言环境，窄字符串的内部编码很可能不与用于字符串的内部编码相对应。（但是怎么会这样，因为字符串文字的编码必须在编译时确定，因为窄字符串的内部编码取决于用于读取它的区域设置，并且可能因字符串而异。）

如果您在Linux中开发一个新的应用程序，我强烈建议使用Unicode来处理所有内容，UTF-32用于宽字符字符串，UTF-8用于窄字符串。但不要指望在字符串文字中工作的前128个编码点之外的任何东西。

这取决于体系结构。大多数Unix体系结构对宽字符串（ wchar_t ）使用UTF-32，对（ char ）使用ASCII。请注意，ASCII只是7位编码。 Windows直到Windows 2000使用UCS-2，更高版本使用变量编码UTF-16（对于wchar_t ）。
大多数Linux上的系统调用都是编码不可知的（他们不关心编码是什么，因为他们没有以任何方式解释它）。外部编码实际上是由您当前的语言环境定义的。
窄字符串和宽字符串使用的内部编码是固定的，它不会随着语言环境的变化而改变。通过改变语言环境，您可以编辑和编码进入/离开程序的数据（假设您使用标准的C文本功能）的翻译功能。