MS Access * .MDB转换为MySQL或SQLite,数据编码有问题

问候,我将介绍我的情况:

  • 我在Linux UBUNTU
  • 我有几个Jet3 .MDB(MS Acess数据库)每个约500MB,其中数据编码在cp1256 / WINDOWS-1256
  • 我已经做了SQLite数据库通过下面这篇文章做转换http://cltb.ojuba.org/en/articles/mdb2sqlite

这是我做转换数据库的bash脚本。 假设我有MS Access x.MDB

mdb-schema "x.mdb" | perl -wpe 's%^DROP TABLE %DROP TABLE IF EXISTS %i; s%(Memo/Hyperlink|DateTime( \(Short\))?)%TEXT%i; s%(Boolean|Byte|Byte|Numeric|Replication ID|(\w+ )?Integer)%INTEGER%i; s%(BINARY|OLE|Unknown ([0-9a-fx]+)?)%BLOB%i; s%\s*\(\d+\)\s*(,?[ \t]*)$%${1}%;' | sqlite3 > x.db for i in $(mdb-tables "x.mdb"); do echo $i; ( echo "BEGIN TRANSACTION;"; MDB_JET3_CHARSET="WINDOWS-1256" mdb-export -R ";\n" -I "x.mdb" $i; echo "END TRANSACTION;" ) | sqlite3 "x.db"; done 

我试图将MDB_JET3_CHARSET更改为WINDOWS-1256,cp1256,WINDOWS-1251,cp1251,UTF-8。 当我浏览数据时,有些会产生不同的结果,但仍然没有意义。

先谢了,对不起我英文不好

那么在玩过许多网站之后,我偶然发现了这个http://git.ojuba.org/cgit/thawab/tree/,并找到了一个给我一个想法的脚本(如果有人好奇,那就是bok2ki.py),我喜欢开源! 🙂

我将MDB_ICONV参数添加为“UTF-8”作为其值,并将MDB_JET3_CHARSET参数值更改为“cp1256”

实际上我真的不知道这些参数是什么,但我猜测MDB_JET3 CHARSET是定义字符集/编码/代码页(我真的不知道差异,我应该研究更多)和MDB_ICONV是定义目标数据库的编码。 那么这些只是我的假设无论如何。

那么这是我的新脚本:

 mdb-schema "x.mdb" | perl -wpe 's%^DROP TABLE %DROP TABLE IF EXISTS %i; s%(Memo/Hyperlink|DateTime( \(Short\))?)%TEXT%i; s%(Boolean|Byte|Byte|Numeric|Replication ID|(\w+ )?Integer)%INTEGER%i; s%(BINARY|OLE|Unknown ([0-9a-fx]+)?)%BLOB%i; s%\s*\(\d+\)\s*(,?[ \t]*)$%${1}%;' | sqlite3 x.db for i in $(mdb-tables "x.mdb"); do echo $i; ( echo "BEGIN TRANSACTION;"; MDB_JET3_CHARSET="cp1256" MDB_ICONV="UTF-8" mdb-export -R ";\n" -I "x.mdb" $i; echo "END TRANSACTION;" ) | sqlite3 "x.db"; done