什么使得Linux 64位上的backtrace()崩溃(SIGSEGV)

我正在linux上开发一个应用程序,我想要以特定频率回溯所有正在运行的线程。 所以我的用户定义的信号处理程序SIGUSR1(针对所有线程)调用backtrace()。

我得到崩溃(SIGSEGV)在我的信号处理程序是从backtrace()调用发起的。 我已经把正确的parameter passing给大多数网站上指定的函数。 http://linux.die.net/man/3/backtrace 。

什么可以使backtrace()在这种情况下崩溃?

要添加更多细节:

下面的框架14是什么让我得出这样的结论:内部回溯是内部回溯。 onMySignal是信号处理程序SIGUSR1,它调用回溯。

onMySignal的示例代码是(从backtrace的linux文档复制的)

pthread_mutex_lock( &sig_mutex ); int j, nptrs; #define SIZE 100 void *buffer[100] = {NULL};//or void *buffer[100]; char **strings; nptrs = backtrace(buffer, SIZE); pthread_mutex_unlock( &sig_mutex ); 

 (gdb) where #0 0x00000037bac0e9dd in raise () from #1 0x00002aaabda936b2 in skgesigOSCrash () from #2 0x00002aaabdd31705 in kpeDbgSignalHandler () #3 0x00002aaabda938c2 in skgesig_sigactionHandler () #4 <signal handler called> #5 0x00000037ba030265 in raise () from #6 0x00000037ba031d10 in abort () from #7 0x00002b6cef82efd7 in os::abort(bool) () from #8 0x00002b6cef98205d in VMError::report_and_die() () #9 0x00002b6cef835655 in JVM_handle_linux_signal () #10 0x00002b6cef831bae in signalHandler(int, siginfo*, void*) () #11 <signal handler called> #12 0x00000037be407638 in ?? () #13 0x00000037be4088bb in _Unwind_Backtrace () #14 0x00000037ba0e5fa8 in backtrace () #15 0x00002aaaaae3875f in onMySignal (signum=10,info=0x4088ec80, context=0x4088eb50) #16 <signal handler called> #17 0x00002aaab4aa8acb in mxSession::setPartition(int) #18 0x0000000000000001 in ?? () #19 0x0000000000000000 in ?? () (gdb) 

希望这会使问题更加清楚。

@janneb我已经在互斥锁中写入了信号处理程序实现,以实现更好的同步。

@janneb我没有在文档中find指定API backtrace_symbols / backtrace是不是async_signal_safe。 以及是否应该在信号处理程序中使用它们。

仍然我从我的信号处理程序中删除backtrace_symbols,并不使用它在任何地方..但我的实际问题在backtrace()persit崩溃。 不知道为什么它会崩溃

编辑23/06/11:更多细节:

 (gdb) where #0 0x00000037bac0e9dd in raise () from #1 0x00002aaab98a36b2 in skgesigOSCrash () from #2 0x00002aaab9b41705 in kpeDbgSignalHandler () from #3 0x00002aaab98a38c2 in skgesig_sigactionHandler () from #4 <signal handler called> #5 0x00000037ba030265 in raise () from #6 0x00000037ba031d10 in abort () from #7 0x00002ac003803fd7 in os::abort(bool) () from #8 0x00002ac00395705d in VMError::report_and_die() () from #9 0x00002ac00380a655 in JVM_handle_linux_signal () from #10 0x00002ac003806bae in signalHandler(int, siginfo*, void*) () from #11 <signal handler called> #12 0x00000037be407638 in ?? () from libgcc_s.so.1 #13 0x00000037be4088bb in _Unwind_Backtrace () from libgcc_s.so.1 #14 0x00000037ba0e5fa8 in backtrace () from libc.so.6 #15 0x00002aaaaae3875f in onMyBacktrace (signum=10, info=0x415d0eb0, context=0x415d0d80) #16 <signal handler called> #17 0x00000037ba071fa8 in _int_free () from libc.so.6 #18 0x00000000000007e0 in ?? () #19 0x000000005aab01a0 in ?? () #20 0x000000000000006f in ?? () #21 0x00000037ba075292 in realloc () from libc.so.6 #22 0x00002aaab6248c4e in Memory::reallocMemory(void*, unsigned long, char const*, int) () 

当realloc正在执行时发生崩溃,其中一个地址是0x00000000000007e0(看起来无效)。

信号处理文档定义了从信号处理程序调用的安全函数列表,您不能使用任何其他函数,包括backtrace 。 (在该文档中搜索async-signal-safe

你可以做的是write你之前设置的管道,并有一个等待管道的线程,然后进行回溯。

编辑:

好吧,所以backtrace函数返回当前线程的堆栈,所以不能从另一个线程使用,所以我使用一个单独的线程做回溯的想法是行不通的。

因此:你可以尝试从你的信号处理程序backtrace_symbols_fd

作为替代,你可以使用gdb来获得回溯,而不必在你的程序中有代码 – 而且gdb可以很容易地处理多个线程。

Shell脚本来运行gdb并获取跟踪信息:

 #!/bin/bash PID="$1" [ -d "/proc/$PID" ] || PID=$(pgrep $1) [ -d "/proc/$PID" ] || { echo "Can't find process: $PID" >&2 ; exit 1 ; } [ -d "$TMPDIR" ] || TMPDIR=/tmp BATCH=$(mktemp $TMPDIR/pstack.gdb.XXXXXXXXXXXXX) echo "thread apply all bt" >"$BATCH" echo "quit" >>"$BATCH" gdb "/proc/$PID/exe" "$PID" -batch -x "$BATCH" </dev/null rm "$BATCH" 

正如道格拉斯Leeder所述, backtrace不在信号安全调用列表中,尽管在这种情况下,我怀疑问题是由backtrace_symbols完成的malloc ,尝试使用backtrace_symbols_fd ,它不调用malloc ,只write 。 (并放下互斥呼叫,信号处理程序不应该睡觉)

编辑

从我所知道的backtrace源头来看,它本身应该是信号安全的,尽管有可能你的堆栈溢出了。

你可能想看glibc的libsegfault的实现,看看它是如何处理这种情况