我在Linux和Windows上使用fftw3.a
库( fftw3.a
, fftw3.lib
)编写了两个相同的程序,并计算fftwf_execute(m_wfpFFTplan)
语句(16-fft)的持续时间。
对于10000次运行:
我很困惑为什么在Windows上比在Linux上快九倍。
处理器:Intel(R)Core(TM)i7 CPU 870 @ 2.93GHz
每台操作系统(Windows XP 32位和Linux OpenSUSE 11.4 32位)都安装在同一台机器上。
我从网上下载了fftw.lib(用于Windows),不知道这些configuration。 一旦我用这个configuration构buildFFTW:
/configure --enable-float --enable-threads --with-combined-threads --disable-fortran --with-slow-timer --enable-sse --enable-sse2 --enable-avx
在Linux中,它会导致比默认configuration(0.4毫秒)快四倍的lib。
16 FFT非常小。 你会发现小于64的FFT将是没有循环的硬编码汇编器,以获得尽可能高的性能。 这意味着它们可能非常容易受到指令集,编译器优化,甚至是64或32位字的变化的影响。
当你用2的幂运算一个从16到1048576的FFT大小的测试时会发生什么? 我认为这是Linux上特定的硬编码asm例程可能不是针对您的机器进行的最佳优化,而您可能在Windows实现方面很幸运。 在这个范围内的所有大小的比较将给你一个更好的指示Linux与Windows的性能。
你校准过FFTW吗? 当第一次运行FFTW猜测每个机器上最快的实现,但是如果你有特殊的指令集,或者一个特定大小的缓存或其他处理器功能,那么这些会对执行速度产生显着的影响。 因此,执行校准将测试各种FFT例程的速度,并针对您的特定硬件选择最快的每个尺寸。 校准包括重复计算计划并保存生成的FFTW“智慧”文件。 保存的校准数据(这是一个冗长的过程)可以重新使用。 我建议在软件启动时重复使用一次。 校准后,我注意到某些尺寸的4-10倍的性能改进!
下面是我用来校准某些尺寸的FFTW的代码片段。 请注意,这个代码是从我工作的DSP库逐字粘贴的,所以一些函数调用是特定于我的库。 我希望FFTW特定的呼叫是有帮助的。
// Calibration FFTW void DSP::forceCalibration(void) { // Try to import FFTw Wisdom for fast plan creation FILE *fftw_wisdom = fopen("DSPDLL.ftw", "r"); // If wisdom does not exist, ask user to calibrate if (fftw_wisdom == 0) { int iStatus2 = AfxMessageBox("FFTw not calibrated on this machine."\ "Would you like to perform a one-time calibration?\n\n"\ "Note:\tMay take 40 minutes (on P4 3GHz), but speeds all subsequent FFT-based filtering & convolution by up to 100%.\n"\ "\tResults are saved to disk (DSPDLL.ftw) and need only be performed once per machine.\n\n"\ "\tMAKE SURE YOU REALLY WANT TO DO THIS, THERE IS NO WAY TO CANCEL CALIBRATION PART-WAY!", MB_YESNO | MB_ICONSTOP, 0); if (iStatus2 == IDYES) { // Perform calibration for all powers of 2 from 8 to 4194304 // (most heavily used FFTs - for signal processing) AfxMessageBox("About to perform calibration.\n"\ "Close all programs, turn off your screensaver and do not move the mouse in this time!\n"\ "Note:\tThis program will appear to be unresponsive until the calibration ends.\n\n" "\tA MESSAGEBOX WILL BE SHOWN ONCE THE CALIBRATION IS COMPLETE.\n"); startTimer(); // Create a whole load of FFTw Plans (wisdom accumulates automatically) for (int i = 8; i <= 4194304; i *= 2) { // Create new buffers and fill DSP::cFFTin = new fftw_complex[i]; DSP::cFFTout = new fftw_complex[i]; DSP::fconv_FULL_Real_FFT_rdat = new double[i]; DSP::fconv_FULL_Real_FFT_cdat = new fftw_complex[(i/2)+1]; for(int j = 0; j < i; j++) { DSP::fconv_FULL_Real_FFT_rdat[j] = j; DSP::cFFTin[j][0] = j; DSP::cFFTin[j][1] = j; DSP::cFFTout[j][0] = 0.0; DSP::cFFTout[j][1] = 0.0; } // Create a plan for complex FFT. // Use the measure flag to get the best possible FFT for this size // FFTw "remembers" which FFTs were the fastest during this test. // at the end of the test, the results are saved to disk and re-used // upon every initialisation of the DSP Library DSP::pCF = fftw_plan_dft_1d (i, DSP::cFFTin, DSP::cFFTout, FFTW_FORWARD, FFTW_MEASURE); // Destroy the plan fftw_destroy_plan(DSP::pCF); // Create a plan for real forward FFT DSP::pCF = fftw_plan_dft_r2c_1d (i, fconv_FULL_Real_FFT_rdat, fconv_FULL_Real_FFT_cdat, FFTW_MEASURE); // Destroy the plan fftw_destroy_plan(DSP::pCF); // Create a plan for real inverse FFT DSP::pCF = fftw_plan_dft_c2r_1d (i, fconv_FULL_Real_FFT_cdat, fconv_FULL_Real_FFT_rdat, FFTW_MEASURE); // Destroy the plan fftw_destroy_plan(DSP::pCF); // Destroy the buffers. Repeat for each size delete [] DSP::cFFTin; delete [] DSP::cFFTout; delete [] DSP::fconv_FULL_Real_FFT_rdat; delete [] DSP::fconv_FULL_Real_FFT_cdat; } double time = stopTimer(); char * strOutput; strOutput = (char*) malloc (100); sprintf(strOutput, "DSP.DLL Calibration complete in %d minutes, %d seconds\n"\ "Please keep a copy of the DSPDLL.ftw file in the root directory of your application\n"\ "to avoid re-calibration in the future\n", (int)time/(int)60, (int)time%(int)60); AfxMessageBox(strOutput); isCalibrated = 1; // Save accumulated wisdom char * strWisdom = fftw_export_wisdom_to_string(); FILE *fftw_wisdomsave = fopen("DSPDLL.ftw", "w"); fprintf(fftw_wisdomsave, "%s", strWisdom); fclose(fftw_wisdomsave); DSP::pCF = NULL; DSP::cFFTin = NULL; DSP::cFFTout = NULL; fconv_FULL_Real_FFT_cdat = NULL; fconv_FULL_Real_FFT_rdat = NULL; free(strOutput); } } else { // obtain file size. fseek (fftw_wisdom , 0 , SEEK_END); long lSize = ftell (fftw_wisdom); rewind (fftw_wisdom); // allocate memory to contain the whole file. char * strWisdom = (char*) malloc (lSize); // copy the file into the buffer. fread (strWisdom,1,lSize,fftw_wisdom); // import the buffer to fftw wisdom fftw_import_wisdom_from_string(strWisdom); fclose(fftw_wisdom); free(strWisdom); isCalibrated = 1; return; } }
秘诀在于使用FFTW_MEASURE标志创建计划,该标志专门测量数百个例程,以便为您的特定类型的FFT(真实,复杂,一维,二维)和尺寸找到最快速度:
DSP::pCF = fftw_plan_dft_1d (i, DSP::cFFTin, DSP::cFFTout, FFTW_FORWARD, FFTW_MEASURE);
最后,所有的基准测试也应该在执行之外的一个FFT计划阶段执行,从在调试器上进行优化和脱离的,在发布模式下编译的代码调用。 基准测试应该循环执行数千次(甚至数百万次)的迭代,然后以平均运行时间计算结果。 正如您可能知道的那样,计划阶段需要花费大量的时间,并且执行被设计为用一个计划执行多次。