Articles of UTF 8

不同的UTF-8签名相同的变音符(元音变音) – 2种二元方式来编写变音符号

我有一个很大的问题,在网上找不到任何帮助: 我把一个网页从OSX移到Linux(这两个系统都在de_DE.UTF-8上运行),并运行一个未知的问题:一些文件没有find,但明显存在于硬盘上(明显地)同名。 所有这些文件都包含德语变音符号。 我拿了一个样本图像,从网页上复制原来的request-uri并直接调用它 – 同样的错误。 重写文件名后,它的工作。 是的,我没有输错! 这让我感到吃惊,我看了看apache-log,发现了这些条目: 192.168.56.10 – – [27/Aug/2012:20:03:21 +0200] "GET /images/Sch%C3%B6ne-Lau-150×150.jpg HTTP/1.1" 304 0 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.1" 192.168.56.10 – – [27/Aug/2012:20:03:57 +0200] "GET /images/Scho%CC%88ne-Lau-150×150.jpg HTTP/1.1" 404 4205 "-" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_4) AppleWebKit/537.1" 这是我要调查的东西…这是我在UTF8图表http://www.utf8-chartable.de/find的 : ö c3 b6 LATIN SMALL LETTER […]

编码cp-1252为utf-8?

我正在尝试编写一个将在Linux服务器上运行的Java应用程序,但是它将使用cp-1252作为字符集来处理旧版Windows计算机上生成的文件。 反正有编码这些文件为utf-8而不是它生成的cp-1252?

如何重置emacs以utf-8-unix字符编码保存文件?

我有个问题。 我发现emacs最近停止了用默认字符集“ utf-8-unix ”保存所有的新文件。 我不明白我做了什么,但是当我打开一个文件,在小缓冲区上方,我看到“ – :—”而不是“ -U:— ”,其中“U”表示文件用utf-8-unix字符集保存。 如何重置emacs来保存文件在适当的编码系统?

在C ++中处理UTF-8

要了解C ++是否是我的项目的正确语言,我想testingUTF-8的function。 根据参考资料,我build立了这个例子: #include <string> #include <iostream> using namespace std; int main() { wstring str; while(getline(wcin, str)) { wcout << str << endl; if(str.empty()) break; } return 0; } 但是当我input一个UTF-8字符时,它会出错: $ > ./utf8 Hello Hello für f $ > 不仅不打印ü ,而且还会立即退出。 gdb告诉我没有崩溃,但是一个正常的退出,但我觉得很难相信。

在Linux / POSIX中语言环境如何工作以及应用了哪些转换?

我正在处理大量的(我希望)UTF-8文本文件。 我可以使用Ubuntu 13.10(3.11.0-14-generic)和12.04来重现它。 在调查一个bug时,我遇到了奇怪的行为 $ export LC_ALL=en_US.UTF-8 $ sort part-r-00000 | uniq -d ɥ ɨ ɞ ɧ 251 ɨ ɡ ɞ ɭ ɯ 291 ɢ ɫ ɬ ɜ 301 ɪ ɳ 475 ʈ ʂ 565 $ export LC_ALL=C $ sort part-r-00000 | uniq -d $ # no duplicates found 运行使用std::stringstream读取文件的自定义C ++程序时,也会出现重复项 – 在使用en_US.UTF-8语言环境时,重复项会失败。 至less对于std::string和input / […]

iconv任何编码为UTF-8

我试图将iconv指向一个目录,所有文件将被转换为UTF-8,而不pipe当前编码如何 我正在使用这个脚本,但你必须指定你要从哪个编码。 我怎样才能使它自动检测当前的编码? dir_iconv.sh #!/bin/bash ICONVBIN='/usr/bin/iconv' # path to iconv binary if [ $# -lt 3 ] then echo "$0 dir from_charset to_charset" exit fi for f in $1/* do if test -f $f then echo -e "\nConverting $f" /bin/mv $f $f.old $ICONVBIN -f $2 -t $3 $f.old > $f else echo -e "\nSkipping $f […]

有没有办法从UTF8转换为ISO-8859-1?

我的软件得到了一些UTF8string比我需要转换为ISO 8859 1.我知道UTF8域大于iso 8859.但UTF8中的数据已经从ISO上转换,所以我不应该错过任何东西。 我想知道是否有一个简单的/直接的方式从UTF8转换为iso-8859-1。 谢谢

string使用的字符单元的数量

我有一个输出使用UTF-8string的文本表的程序,我需要测量string使用的等宽字符单元格的数量,以便我可以正确alignment它。 如果可能的话,我想用标准function来做到这一点。

如何在Windows下的cmd窗口中显示日语汉字?

我有一个英文的Windows 2003服务器,激活了亚洲语言支持。 命令窗口中可用的两种字体(cmd设置)是光栅和lucida控制台。 没有一个或另一个正确显示汉字(显示为问号)。 有没有解决scheme让他们显示? 在写出控制台之前,我的应用程序中是否有一些转变? 我现在正在编写UTF8,对于一些非ASCII字符(如öäüß)也适用。 写入控制台的源代码具有正确的数据(日文汉字可以在debugging器中正确查看)。 如果有问题,我正在用C#编写应用程序。 编辑:我发现这个链接 ,它解释了问题背后的问题,并提出了C#解决scheme(涉及本地调用)。 这应该适用于.NET 4.5(我未经testing)

在Windows XP上使用国际字符批量重命名文件

我有一大堆使用我们可爱的瑞典字母å和ö的文件名。 由于各种原因,我现在需要将它们转换为[a-zA-Z]范围。 只是删除这个范围以外的东西是相当容易的。 引起我的麻烦的是我想用o , o等replaceö 。 这是最糟糕的charset麻烦。 我有一组testing文件: files\Copy of New Text Documen åäö t.txt files\fofo.txt files\New Text Document.txt files\worstcase åäöÅÄÖéÉ.txt 我将脚本放在这一行上,将结果input到各种命令中 for %%X in (files\*.txt) do (echo %%X) 奇怪的是,如果我把这个(简单的for循环是)的结果打印到一个文件中,我得到这个输出: files\Copy of New Text Documen †„” t.txt files\fofo.txt files\New Text Document.txt files\worstcase †„”Ž™‚.txt 因此,在我的文件名甚至到达其他工具(我一直在尝试使用一个叫做GnuWin32的Windows的sed端口来做到这一点,但目前为止没有运气),并且对这些字符进行replace帮助。 你将如何解决这个问题? 我打开任何types的工具,命令行或其他… 编辑:这是一个一次性的问题,所以我正在寻找一个快速“丑陋的修复