Articles of UTF 8

为什么utf-8字符不显示在cmd.exe中?

我在Windows下testingc + + 11string文字与tdm-gcc: #include <iostream> int main(int argc, char** argv) { std::cout << u8"你确定要这么做吗" << std::endl; return 0; } 命令行: e:\src\c++\11>g++ utf8_literal.cc -std=c++11 使用chcp 65001将代码更改为utf8,然后运行该应用程序,结果如此 你的第一个汉字是不正确的。 但是,如果添加一个英文字符,例如a那么显示是正确的: 因此我们可以排除字体问题。 为什么第一个字符拒绝显示前面没有英文字符?

如何检查一个语言环境是否是UTF-8?

我正在与Yocto合作为ARM设备(i.MX 6Quad Processors)创buildembedded式Linux发行版。 我已经用variablesconfiguration了所需语言环境的列表: IMAGE_LINGUAS = "de-de fr-fr en-gb en-gb.iso-8859-1 en-us en-us.iso-8859-1 zh-cn" 因此,我已经获得了包含以下文件夹的文件系统: root@lam_icu:/usr/lib/locale# cd /usr/share/locale/ root@lam_icu:/usr/share/locale# ls -la total 0 drwxr-xr-x 6 root root 416 Nov 17 2016 . drwxr-xr-x 30 root root 2056 Nov 17 2016 .. drwxr-xr-x 4 root root 296 Nov 17 2016 de drwxr-xr-x 3 root root 232 Nov […]

MySQL UTF8 Windows导出 – Linux导入

我有MySQL数据库版本5.1.36,与WAMP安装。 我在Windows XP SP3上将它用于开发目的,它有一些数据,它是西里尔语 ,所有这些表/列的sorting规则设置为utf8_general_ci 。 现在是把这个数据库迁移到Debian Lenny上的伪生产环境的时候了。 这里的MySQL版本是5.0.51a。 我尝试了以下内容: 我使用Windows上的phpmyadmin数据导出了数据库,并将.sql文件保存为UTF8。 然后,我将它通过WinSCP(默认和二进制传输设置)传输到Linux机器。 我通过命令行创build了数据库: mysqladmin -u root -p create nbs 最后,我试图创build表格并填写数据: mysql -u root -p –default-character-set=utf8 nbs < NBS_utf8_1.sql 但是,这是我得到的错误,如: 第1行中的错误1064(42000):您的SQL语法错误; 检查与您的MySQL服务器版本相对应的手册,以便在第一行使用CREATE TABLE IF NOT EXISTS `history_members` ( `id` int(11)NOT NULL AUTO_' 有些东西与编码混淆,我想…但不知道如何以及在哪里。 我想我在SO上读到类似的问题,即文本传输的二进制模式只会把CRLF换行换成LF(不知道这是否正确…)。 我在这里错过了什么? 谢谢。

用Accent – Python阅读文本

我在python中做了一些脚本,连接到GMAIL并打印电子邮件文本…但是,我的电子邮件经常带有“重音”的单词。 还有我的问题… 例如,我得到一个文本:“PLANO DE S = C3 = 9ADE”应打印为“PLANO DESAÚDE”。 我怎样才能把我的电子邮件文本变成清晰的? 我可以用什么来转换这些带有口音的字母? 谢谢, Andreybuild议的代码,在windows上工作正常,但是在Linux上,我仍然得到错误的打印: >>> b = 'PLANO DE S=C3=9ADE' >>> s = b.decode('quopri').decode('utf-8') >>> print s PLANO DE SÃDE 拉斐尔, 谢谢,你对这个词是正确的,这是拼错的。 但问题在这里还是一样的。 又如:正确的字:obersevação >>> b = 'Observa=C3=A7=C3=B5es' >>> s = b.decode('quopri').decode('utf-8') >>> print s Observações 我正在用UTF-8语言环境使用Debian: >>> :~$ locale LANG=en_US.UTF-8 安德烈, 谢谢你的时间。 我同意你的解释,但在这里仍然有同样的问题。 看看我的testing: […]

Oracle设置了默认的NLS_LANG

我在RHEL6上运行Oracle数据库11g。 如果没有客户端NLS_LANG设置某个utf8字符的长度是2.在设置了NLS_LANG = AMERICAN_AMERICA.UTF8之后,长度只有1.怎么样可以打赌整个数据库的默认NLG_LANG改变了? 我不想只为会话更改此值,或者像linux中的环境variables。 有没有可能将其设置为一般的数据库? SQL> select length('á') from dual; LENGTH('??') ———— 2 # export NLS_LANG=AMERICAN_AMERICA.UTF8 SQL> select length('á') from dual; LENGTH('á') ———– 1 非常感谢您的任何想法

不同的UTF-8签名相同的变音符(元音变音) – 2种二元方式来编写变音符号

我有一个很大的问题,在网上找不到任何帮助: 我把一个网页从OSX移到Linux(这两个系统都在de_DE.UTF-8上运行),并运行一个未知的问题:一些文件没有find,但明显存在于硬盘上(明显地)同名。 所有这些文件都包含德语变音符号。 我拿了一个样本图像,从网页上复制原来的request-uri并直接调用它 – 同样的错误。 重写文件名后,它的工作。 是的,我没有输错! 这让我感到吃惊,我看了看apache-log,发现了这些条目: 192.168.56.10 – – [27/Aug/2012:20:03:21 +0200] "GET /images/Sch%C3%B6ne-Lau-150×150.jpg HTTP/1.1" 304 0 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.1" 192.168.56.10 – – [27/Aug/2012:20:03:57 +0200] "GET /images/Scho%CC%88ne-Lau-150×150.jpg HTTP/1.1" 404 4205 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.1" 这是我要调查的东西…这是我在UTF8图表http://www.utf8-chartable.de/find的 : ö c3 b6 LATIN SMALL LETTER […]

编码cp-1252为utf-8?

我正在尝试编写一个将在Linux服务器上运行的Java应用程序,但是它将使用cp-1252作为字符集来处理旧版Windows计算机上生成的文件。 反正有编码这些文件为utf-8而不是它生成的cp-1252?

如何重置emacs以utf-8-unix字符编码保存文件?

我有个问题。 我发现emacs最近停止了用默认字符集“ utf-8-unix ”保存所有的新文件。 我不明白我做了什么,但是当我打开一个文件,在小缓冲区上方,我看到“ – :—”而不是“ -U:— ”,其中“U”表示文件用utf-8-unix字符集保存。 如何重置emacs来保存文件在适当的编码系统?

在C ++中处理UTF-8

要了解C ++是否是我的项目的正确语言,我想testingUTF-8的function。 根据参考资料,我build立了这个例子: #include <string> #include <iostream> using namespace std; int main() { wstring str; while(getline(wcin, str)) { wcout << str << endl; if(str.empty()) break; } return 0; } 但是当我input一个UTF-8字符时,它会出错: $ > ./utf8 Hello Hello für f $ > 不仅不打印ü ,而且还会立即退出。 gdb告诉我没有崩溃,但是一个正常的退出,但我觉得很难相信。

在Linux / POSIX中语言环境如何工作以及应用了哪些转换?

我正在处理大量的(我希望)UTF-8文本文件。 我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它。 在调查一个bug时,我遇到了奇怪的行为 $ export LC_ALL=en_US.UTF-8 $ sort part-r-00000 | uniq -d ɥ ɨ ɞ ɧ 251 ɨ ɡ ɞ ɭ ɯ 291 ɢ ɫ ɬ ɜ 301 ɪ ɳ 475 ʈ ʂ 565 $ export LC_ALL=C $ sort part-r-00000 | uniq -d $ # no duplicates found 运行使用std::stringstream读取文件的自定义C ++程序时,也会出现重复项 – 在使用en_US.UTF-8语言环境时,重复项会失败。 至less对于std::string和input / […]