现代机器上的合并sorting优于快速sorting吗？

既然现代机器都是多核心的，而且我们支持在SSE指令下的Windows和Linux机器上的SIMD指令，例如，我应该在我的C / C ++代码中切换到合并sorting并忘记了QuickSort？从理论上讲，这样做的理由是合并sorting会更好地并行化，并更加节省地使用内存/磁盘，因此比QuickSort的内存密集型操作更快，但我不知道。实际经验表明什么？

我不想在每次sorting时进行configuration和testing。我想用一个标准的方法。目前该方法是QuickSort，因为这是默认的库sorting例程。我想知道是否有其他人切换到MergeSort并通过切换获得更好的结果。

UPDATE ————

Graham.Reeds回答在实践中，std :: sort和std :: stable_sort之间的性能差距有多大？表明我上面的猜测是正确的，切换到MergeSort / stablesort可能是正确的。

在得到很多不答复之后，我花了几个小时做了自己的研究。这样做的结果是，合并排序（和其他相关的排序）将会因为内存使用的不足而更快，以及更好的并行/多核开发。此外，英特尔还有一个称为IPP的标准高性能库，用于x86机器的合并式分类。通过切换到这个库看起来像我可以大大改善排序性能（和其他矢量类型的操作）我编程的类型。

我不认为有一个明确的答案。在某些情况下，并行蛮力排序可能会更快。分析你的具体情况总是很重要的。例如，如果你有多个核和SIMD，也考虑一下这种双向排序。

我应该切换到我的C / C ++代码合并排序，并忘记QuickSort？

抱歉说这个，但这个问题听起来像是一个尝试过早的优化。

从理论上讲，这样做的理由是合并排序会更好地并行化，并更加节省地使用内存/磁盘，因此比QuickSort的内存密集型操作更快，但我不知道。实际经验表明什么？

实际上，您应该总是首先进行分析，然后根据结果确定优化领域。

很有可能你甚至不需要改变你使用的排序算法，除非你通过一个足够大的数据集来处理结果（或者在处理流程足够关键的区域）。

我通常使用std :: sort，如果这还不够（对于std::sort ，还没有发生），我优化了我的应用程序流和算法。

事实是，你必须自己分析它，看看它是如何表现你的应用程序，数据，环境等。这本质上是对类似于SO上所有性能分析/性能/优化问题的99％的答案。

有一些并行排序软件包可以根据处理器内核的数量进行扩展，并设计为利用/优化每个处理器上的处理。我知道TBB（线程构建模块）有一个parallel_sort函数，它是一个平均时间复杂度为0（n log n）的比较排序。

你也可以在快速排序中实现一些线程。在TBB中，使用parallel_for可以轻松地将递归函数转换为并行性，或者您可以查看Cilk Plus，网上有很多线程示例。