跟踪生产Linux服务器上的内存损坏

伙计们,可以请你推荐一个工具来发现内存损坏的生产multithreading服务器build立在C ++和Linux下的x86_64工作? 我目前面临以下问题:每隔几个小时我的服务器崩溃与一个segfault和核心转储显示错误发生在malloc / calloc这肯定是内存损坏的迹象某处。

其实我已经尝试了一些没有太多运气的工具。 这是我迄今的经验:

  • Valgrind是一个伟大的(我甚至说最好的)工具,但它太慢,使服务器无法使用的生产。 我试图在舞台服务器上,它确实帮助我find一些内存相关的问题,但即使修复它们,我仍然在生产服务器上崩溃。 我在Valgrind下运行了我的舞台服务器好几个小时,但是仍然没有发现任何严重的错误。

  • 据说ElectricFence是一个真正的记忆猪,但我甚至无法正常工作。 它几乎立即在舞台服务器上发生故障,在Valgrind根本没有显示任何问题的随机奇怪的地方。 也许ElectricFence不支持线程呢?我不知道。

  • DUMA – 与ElectricFence一样的故事,但更糟。 虽然EF生产核心转储与可读的backtraces DUMA只显示我“?????”(肯定服务器是用-g标志确定)

  • dmalloc – 我configuration服务器来使用它,而不是标准的malloc例程,但几分钟后挂起。 附加一个gdb的过程显示它挂在dmalloc的地方:(

我逐渐变得疯狂,根本不知道下一步该做什么。 我有以下工具可以尝试:mtrace,mpatrol,但也许有人有一个更好的主意?

我非常感谢在这个问题上的任何帮助。

更新:我设法find了错误的来源。 然而,我发现它在舞台服务器上没有生产使用helgrind / DRD / tsan – 在几个线程之间有一个datarace导致内存损坏。 关键是要使用适当的valgrind压制,因为这些工具显示太多的误报。 不过,我真的不知道如何在生产服务器上发现这种情况,而没有任何显着的减速。

Solutions Collecting From Web of "跟踪生产Linux服务器上的内存损坏"

是的,C / C ++内存损坏问题很难。 我也使用了几次valgrind,有时它显示了问题,有时不是。

虽然检查valgrind输出不会忽视其结果太快。 有时在经过相当长的时间之后,你会发现valgrind给了你一个线索,但你忽略了它。

另一个建议是比较以前已知的稳定版本的代码更改。 如果使用某种源版本控制系统(例如svn),这不是问题。 检查所有与内存相关的函数(例如,memcpy,memset,sprintf,new,delete / delete [])。

用gcc 4.1和-fstack-protector-all开关编译你的程序。 如果内存损坏是由堆栈粉碎引起的,应该可以检测到它。 您可能需要玩一些SSP的附加参数。

伙计们,我设法找到了错误的来源。 然而,我发现它在舞台服务器上使用helgrind / DRD / tsan – 有一个datarace之间的几个线程导致内存损坏。 关键是要使用适当的 valgrind压制,因为这些工具显示太多的误报。 不过,我真的不知道如何在生产服务器上发现这种情况,而没有任何显着的减速。

你试过了吗? (向上滚动几行以查看可用选项)。

您可以尝试IBM净化,但我恐怕不是开源..

Google Perftools —开放源代码—可能有帮助,请参阅堆检查器文档。

试试这个: http : //www.hexco.de/rmdebug/我广泛使用它,对性能的影响很小(它主要影响ram的数量),但是分配算法是一样的。 它总是被证明足以发现任何分配错误。 错误发生后,程序会立即崩溃,并且会有详细的日志。

我不确定它是否会抓住你的特定错误,但是MALLOC_CHECK_环境变量( malloc手册页 )在默认的Linux malloc实现中打开了额外的检查,并且通常没有显着的运行时间成本。