Python UTF-16输出和Windows行结尾的错误?

有了这个代码:

test.py

import sys import codecs sys.stdout = codecs.getwriter('utf-16')(sys.stdout) print "test1" print "test2" 

然后我运行它:

 test.py > test.txt 

在Windows 2000上的Python 2.6中,我发现换行字符正在输出为字节序列\x0D\x0A\x00 ,这对于UTF-16来说当然是错误的。

我错过了什么,或者这是一个错误?

Solutions Collecting From Web of "Python UTF-16输出和Windows行结尾的错误?"

尝试这个:

 import sys import codecs if sys.platform == "win32": import os, msvcrt msvcrt.setmode(sys.stdout.fileno(), os.O_BINARY) class CRLFWrapper(object): def __init__(self, output): self.output = output def write(self, s): self.output.write(s.replace("\n", "\r\n")) def __getattr__(self, key): return getattr(self.output, key) sys.stdout = CRLFWrapper(codecs.getwriter('utf-16')(sys.stdout)) print "test1" print "test2" 

换行符翻译发生在标准输出文件内部。 你正在写“test1 \ n”到sys.stdout(一个StreamWriter)。 StreamWriter将其转换为“t \ x00e \ x00s \ x00t \ x001 \ x00 \ n \ x00”,并将其发送到实际文件,即原始sys.stderr。

该文件不知道你已经将数据转换为UTF-16; 所有它知道的是,输出流中的任何\ n值都需要转换为\ x0D \ x0A,这会导致您看到的输出。

到目前为止,我已经找到了两个解决方案,但是没有一个使用 Windows风格的行结束符输出UTF-16。

首先,将Python print语句重定向到UTF-16编码的文件(输出Unix样式的行尾):

 import sys import codecs sys.stdout = codecs.open("outputfile.txt", "w", encoding="utf16") print "test1" print "test2" 

其次,使用UTF-16编码重定向到stdout ,没有行结束的转换损坏(输出Unix样式的行结束)(感谢这个ActiveState配方 ):

 import sys import codecs sys.stdout = codecs.getwriter('utf-16')(sys.stdout) if sys.platform == "win32": import os, msvcrt msvcrt.setmode(sys.stdout.fileno(), os.O_BINARY) print "test1" print "test2"