我对Pentaho数据集成进行了一次转换,我首先使用“CSVinput”来映射我的平面文件。
我从来没有在Windows上遇到过一个问题,但现在我正在把我的服务器连接到一个服务器上,这个服务器将运行到一个linux服务器,现在我遇到了特殊字符的问题。
我注意到的第一件事是我的表在哪里被更新,因为系统是理解名称作为不同的string在我的数据库。
检查问题,我也注意到,如果我去我的“CSVinput” – >预览,它会显示我的数据与上述问题的预览:
特殊字符不显示 。
应该在哪里:
Diretoria de Suporte à Decisão e Aplicação
我用一个命令来检查我的文件字符集/编码,它显示:
$ file -bi foo.csv text/plain; charset=iso-8859-1
如果我在vi上打开foo.csv,它理解特殊字符。
任何想法可能是什么问题或我应该尝试什么?
我没有这个编码的任何数据文件,所以你必须做一些试验,但是有一些步骤可以解决这些问题。
首先, CSV Input
步骤有一个字段,允许您选择源文件的编码。 Text File Input
步骤同时在“内容”选项卡下具有“格式”(意思是行终止符)和“编码”选择器。
在“变换”中,“实用工具”选项卡下有“ Change file encoding
步骤。 此步骤旨在复制许多文件,同时更改其编码; 这就是为什么它正在变换。
在作业中,在“文件管理”选项卡下有“ Convert file between Windows and Unix
的Convert file between Windows and Unix
,但这似乎只处理行结束符。
无论哪种方式,如果CSV /文本文件输入步骤不符合您的需求,您将不得不复制文件到一个新的编码,然后再阅读它。它可能是最简单的尝试处理它与文件输入步骤第一。