From ad73045723bd06fe15c00a7fb6879f88a1b89dee Mon Sep 17 00:00:00 2001
From: Doc CI Action <rasolca@users.noreply.github.com>
Date: Wed, 19 Jul 2023 11:42:25 +0000
Subject: [PATCH] Doc TridiagSolver (local): embed row permutation in rank1
 solver (#936)

---
 ...r_2tridiag__solver_2kernels_8h_source.html |  117 +-
 master/merge_8h_source.html                   | 1677 +++++++++--------
 2 files changed, 890 insertions(+), 904 deletions(-)
diff --git a/master/eigensolver_2tridiag__solver_2kernels_8h_source.html b/master/eigensolver_2tridiag__solver_2kernels_8h_source.html
index a88b347355..8815b26cd6 100644
--- a/master/eigensolver_2tridiag__solver_2kernels_8h_source.html
+++ b/master/eigensolver_2tridiag__solver_2kernels_8h_source.html
@@ -344,86 +344,49 @@
 <div class="line"><a name="l00273"></a><span class="lineno">  273</span>&#160;  di::transformDetach(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), initIndexTile_o, std::move(sender));</div>
 <div class="line"><a name="l00274"></a><span class="lineno">  274</span>&#160;}</div>
 <div class="line"><a name="l00275"></a><span class="lineno">  275</span>&#160; </div>
-<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160;<span class="keywordtype">void</span> setUnitDiagonal(<span class="keyword">const</span> SizeType&amp; k, <span class="keyword">const</span> SizeType&amp; tile_begin,</div>
-<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;                     <span class="keyword">const</span> matrix::Tile&lt;T, Device::CPU&gt;&amp; tile);</div>
-<div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160; </div>
-<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;<span class="preprocessor">#define DLAF_CPU_SET_UNIT_DIAGONAL_ETI(kword, Type)                                  \</span></div>
-<div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;<span class="preprocessor">  kword template void setUnitDiagonal(const SizeType&amp; k, const SizeType&amp; tile_begin, \</span></div>
-<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160;<span class="preprocessor">                                      const matrix::Tile&lt;Type, Device::CPU&gt;&amp; tile)</span></div>
-<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160; </div>
-<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;DLAF_CPU_SET_UNIT_DIAGONAL_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;DLAF_CPU_SET_UNIT_DIAGONAL_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a name="l00276"></a><span class="lineno">  276</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
+<div class="line"><a name="l00277"></a><span class="lineno">  277</span>&#160; </div>
+<div class="line"><a name="l00278"></a><span class="lineno">  278</span>&#160;<span class="comment">// Returns the number of non-deflated entries</span></div>
+<div class="line"><a name="l00279"></a><span class="lineno">  279</span>&#160;<span class="keywordtype">void</span> stablePartitionIndexOnDevice(SizeType n, <span class="keyword">const</span> ColType* c_ptr, <span class="keyword">const</span> SizeType* in_ptr,</div>
+<div class="line"><a name="l00280"></a><span class="lineno">  280</span>&#160;                                  SizeType* out_ptr, SizeType* host_k_ptr, SizeType* device_k_ptr,</div>
+<div class="line"><a name="l00281"></a><span class="lineno">  281</span>&#160;                                  whip::stream_t stream);</div>
+<div class="line"><a name="l00282"></a><span class="lineno">  282</span>&#160; </div>
+<div class="line"><a name="l00283"></a><span class="lineno">  283</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00284"></a><span class="lineno">  284</span>&#160;<span class="keywordtype">void</span> mergeIndicesOnDevice(<span class="keyword">const</span> SizeType* begin_ptr, <span class="keyword">const</span> SizeType* split_ptr, <span class="keyword">const</span> SizeType* end_ptr,</div>
+<div class="line"><a name="l00285"></a><span class="lineno">  285</span>&#160;                          SizeType* out_ptr, <span class="keyword">const</span> T* v_ptr, whip::stream_t stream);</div>
 <div class="line"><a name="l00286"></a><span class="lineno">  286</span>&#160; </div>
-<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="keywordtype">void</span> setUnitDiagonal(<span class="keyword">const</span> SizeType&amp; k, <span class="keyword">const</span> SizeType&amp; tile_begin,</div>
-<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;                     <span class="keyword">const</span> matrix::Tile&lt;T, Device::GPU&gt;&amp; tile, whip::stream_t stream);</div>
+<div class="line"><a name="l00287"></a><span class="lineno">  287</span>&#160;<span class="preprocessor">#define DLAF_CUDA_MERGE_INDICES_ETI(kword, Type)                                                 \</span></div>
+<div class="line"><a name="l00288"></a><span class="lineno">  288</span>&#160;<span class="preprocessor">  kword template void mergeIndicesOnDevice(const SizeType* begin_ptr, const SizeType* split_ptr, \</span></div>
+<div class="line"><a name="l00289"></a><span class="lineno">  289</span>&#160;<span class="preprocessor">                                           const SizeType* end_ptr, SizeType* out_ptr,           \</span></div>
+<div class="line"><a name="l00290"></a><span class="lineno">  290</span>&#160;<span class="preprocessor">                                           const Type* v_ptr, whip::stream_t stream)</span></div>
 <div class="line"><a name="l00291"></a><span class="lineno">  291</span>&#160; </div>
-<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;<span class="preprocessor">#define DLAF_GPU_SET_UNIT_DIAGONAL_ETI(kword, Type)                                  \</span></div>
-<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;<span class="preprocessor">  kword template void setUnitDiagonal(const SizeType&amp; k, const SizeType&amp; tile_begin, \</span></div>
-<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160;<span class="preprocessor">                                      const matrix::Tile&lt;Type, Device::GPU&gt;&amp; tile,   \</span></div>
-<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;<span class="preprocessor">                                      whip::stream_t stream)</span></div>
-<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160; </div>
-<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160;DLAF_GPU_SET_UNIT_DIAGONAL_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;DLAF_GPU_SET_UNIT_DIAGONAL_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160; </div>
-<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;<span class="preprocessor">#endif</span></div>
+<div class="line"><a name="l00292"></a><span class="lineno">  292</span>&#160;DLAF_CUDA_MERGE_INDICES_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
+<div class="line"><a name="l00293"></a><span class="lineno">  293</span>&#160;DLAF_CUDA_MERGE_INDICES_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a name="l00294"></a><span class="lineno">  294</span>&#160; </div>
+<div class="line"><a name="l00295"></a><span class="lineno">  295</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00296"></a><span class="lineno">  296</span>&#160;<span class="keywordtype">void</span> applyIndexOnDevice(SizeType len, <span class="keyword">const</span> SizeType* index, <span class="keyword">const</span> T* in, T* out, whip::stream_t stream);</div>
+<div class="line"><a name="l00297"></a><span class="lineno">  297</span>&#160; </div>
+<div class="line"><a name="l00298"></a><span class="lineno">  298</span>&#160;<span class="preprocessor">#define DLAF_CUDA_APPLY_INDEX_ETI(kword, Type)                                                \</span></div>
+<div class="line"><a name="l00299"></a><span class="lineno">  299</span>&#160;<span class="preprocessor">  kword template void applyIndexOnDevice(SizeType len, const SizeType* index, const Type* in, \</span></div>
+<div class="line"><a name="l00300"></a><span class="lineno">  300</span>&#160;<span class="preprocessor">                                         Type* out, whip::stream_t stream)</span></div>
 <div class="line"><a name="l00301"></a><span class="lineno">  301</span>&#160; </div>
-<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;<a class="code" href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a>(setUnitDiagonal);</div>
-<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160; </div>
-<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160;<span class="keyword">template</span> &lt;Device D, <span class="keyword">class</span> KSender, <span class="keyword">class</span> TileSender&gt;</div>
-<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="keywordtype">void</span> setUnitDiagonalAsync(KSender&amp;&amp; k, SizeType tile_begin, TileSender&amp;&amp; tile) {</div>
-<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;  <span class="keyword">auto</span> sender = di::whenAllLift(std::forward&lt;KSender&gt;(k), tile_begin, std::forward&lt;TileSender&gt;(tile));</div>
-<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;  di::transformDetach(di::Policy&lt;DefaultBackend_v&lt;D&gt;&gt;(), setUnitDiagonal_o, std::move(sender));</div>
-<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160;}</div>
-<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160; </div>
-<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;<span class="comment">// ---------------------------</span></div>
-<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160; </div>
-<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160;<span class="preprocessor">#ifdef DLAF_WITH_GPU</span></div>
-<div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160; </div>
-<div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;<span class="comment">// Returns the number of non-deflated entries</span></div>
-<div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160;<span class="keywordtype">void</span> stablePartitionIndexOnDevice(SizeType n, <span class="keyword">const</span> ColType* c_ptr, <span class="keyword">const</span> SizeType* in_ptr,</div>
-<div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;                                  SizeType* out_ptr, SizeType* host_k_ptr, SizeType* device_k_ptr,</div>
-<div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;                                  whip::stream_t stream);</div>
-<div class="line"><a name="l00319"></a><span class="lineno">  319</span>&#160; </div>
-<div class="line"><a name="l00320"></a><span class="lineno">  320</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00321"></a><span class="lineno">  321</span>&#160;<span class="keywordtype">void</span> mergeIndicesOnDevice(<span class="keyword">const</span> SizeType* begin_ptr, <span class="keyword">const</span> SizeType* split_ptr, <span class="keyword">const</span> SizeType* end_ptr,</div>
-<div class="line"><a name="l00322"></a><span class="lineno">  322</span>&#160;                          SizeType* out_ptr, <span class="keyword">const</span> T* v_ptr, whip::stream_t stream);</div>
-<div class="line"><a name="l00323"></a><span class="lineno">  323</span>&#160; </div>
-<div class="line"><a name="l00324"></a><span class="lineno">  324</span>&#160;<span class="preprocessor">#define DLAF_CUDA_MERGE_INDICES_ETI(kword, Type)                                                 \</span></div>
-<div class="line"><a name="l00325"></a><span class="lineno">  325</span>&#160;<span class="preprocessor">  kword template void mergeIndicesOnDevice(const SizeType* begin_ptr, const SizeType* split_ptr, \</span></div>
-<div class="line"><a name="l00326"></a><span class="lineno">  326</span>&#160;<span class="preprocessor">                                           const SizeType* end_ptr, SizeType* out_ptr,           \</span></div>
-<div class="line"><a name="l00327"></a><span class="lineno">  327</span>&#160;<span class="preprocessor">                                           const Type* v_ptr, whip::stream_t stream)</span></div>
-<div class="line"><a name="l00328"></a><span class="lineno">  328</span>&#160; </div>
-<div class="line"><a name="l00329"></a><span class="lineno">  329</span>&#160;DLAF_CUDA_MERGE_INDICES_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00330"></a><span class="lineno">  330</span>&#160;DLAF_CUDA_MERGE_INDICES_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00331"></a><span class="lineno">  331</span>&#160; </div>
-<div class="line"><a name="l00332"></a><span class="lineno">  332</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00333"></a><span class="lineno">  333</span>&#160;<span class="keywordtype">void</span> applyIndexOnDevice(SizeType len, <span class="keyword">const</span> SizeType* index, <span class="keyword">const</span> T* in, T* out, whip::stream_t stream);</div>
-<div class="line"><a name="l00334"></a><span class="lineno">  334</span>&#160; </div>
-<div class="line"><a name="l00335"></a><span class="lineno">  335</span>&#160;<span class="preprocessor">#define DLAF_CUDA_APPLY_INDEX_ETI(kword, Type)                                                \</span></div>
-<div class="line"><a name="l00336"></a><span class="lineno">  336</span>&#160;<span class="preprocessor">  kword template void applyIndexOnDevice(SizeType len, const SizeType* index, const Type* in, \</span></div>
-<div class="line"><a name="l00337"></a><span class="lineno">  337</span>&#160;<span class="preprocessor">                                         Type* out, whip::stream_t stream)</span></div>
-<div class="line"><a name="l00338"></a><span class="lineno">  338</span>&#160; </div>
-<div class="line"><a name="l00339"></a><span class="lineno">  339</span>&#160;DLAF_CUDA_APPLY_INDEX_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00340"></a><span class="lineno">  340</span>&#160;DLAF_CUDA_APPLY_INDEX_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00341"></a><span class="lineno">  341</span>&#160; </div>
-<div class="line"><a name="l00342"></a><span class="lineno">  342</span>&#160;<span class="keywordtype">void</span> invertIndexOnDevice(SizeType len, <span class="keyword">const</span> SizeType* in, SizeType* out, whip::stream_t stream);</div>
-<div class="line"><a name="l00343"></a><span class="lineno">  343</span>&#160; </div>
-<div class="line"><a name="l00344"></a><span class="lineno">  344</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
-<div class="line"><a name="l00345"></a><span class="lineno">  345</span>&#160;<span class="keywordtype">void</span> givensRotationOnDevice(SizeType len, T* x, T* y, T c, T s, whip::stream_t stream);</div>
-<div class="line"><a name="l00346"></a><span class="lineno">  346</span>&#160; </div>
-<div class="line"><a name="l00347"></a><span class="lineno">  347</span>&#160;<span class="preprocessor">#define DLAF_GIVENS_ROT_ETI(kword, Type)                                                     \</span></div>
-<div class="line"><a name="l00348"></a><span class="lineno">  348</span>&#160;<span class="preprocessor">  kword template void givensRotationOnDevice(SizeType len, Type* x, Type* y, Type c, Type s, \</span></div>
-<div class="line"><a name="l00349"></a><span class="lineno">  349</span>&#160;<span class="preprocessor">                                             whip::stream_t stream)</span></div>
-<div class="line"><a name="l00350"></a><span class="lineno">  350</span>&#160; </div>
-<div class="line"><a name="l00351"></a><span class="lineno">  351</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
-<div class="line"><a name="l00352"></a><span class="lineno">  352</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
-<div class="line"><a name="l00353"></a><span class="lineno">  353</span>&#160; </div>
-<div class="line"><a name="l00354"></a><span class="lineno">  354</span>&#160;<span class="preprocessor">#endif</span></div>
-<div class="line"><a name="l00355"></a><span class="lineno">  355</span>&#160;}</div>
+<div class="line"><a name="l00302"></a><span class="lineno">  302</span>&#160;DLAF_CUDA_APPLY_INDEX_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
+<div class="line"><a name="l00303"></a><span class="lineno">  303</span>&#160;DLAF_CUDA_APPLY_INDEX_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a name="l00304"></a><span class="lineno">  304</span>&#160; </div>
+<div class="line"><a name="l00305"></a><span class="lineno">  305</span>&#160;<span class="keywordtype">void</span> invertIndexOnDevice(SizeType len, <span class="keyword">const</span> SizeType* in, SizeType* out, whip::stream_t stream);</div>
+<div class="line"><a name="l00306"></a><span class="lineno">  306</span>&#160; </div>
+<div class="line"><a name="l00307"></a><span class="lineno">  307</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T&gt;</div>
+<div class="line"><a name="l00308"></a><span class="lineno">  308</span>&#160;<span class="keywordtype">void</span> givensRotationOnDevice(SizeType len, T* x, T* y, T c, T s, whip::stream_t stream);</div>
+<div class="line"><a name="l00309"></a><span class="lineno">  309</span>&#160; </div>
+<div class="line"><a name="l00310"></a><span class="lineno">  310</span>&#160;<span class="preprocessor">#define DLAF_GIVENS_ROT_ETI(kword, Type)                                                     \</span></div>
+<div class="line"><a name="l00311"></a><span class="lineno">  311</span>&#160;<span class="preprocessor">  kword template void givensRotationOnDevice(SizeType len, Type* x, Type* y, Type c, Type s, \</span></div>
+<div class="line"><a name="l00312"></a><span class="lineno">  312</span>&#160;<span class="preprocessor">                                             whip::stream_t stream)</span></div>
+<div class="line"><a name="l00313"></a><span class="lineno">  313</span>&#160; </div>
+<div class="line"><a name="l00314"></a><span class="lineno">  314</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">float</span>);</div>
+<div class="line"><a name="l00315"></a><span class="lineno">  315</span>&#160;DLAF_GIVENS_ROT_ETI(<span class="keyword">extern</span>, <span class="keywordtype">double</span>);</div>
+<div class="line"><a name="l00316"></a><span class="lineno">  316</span>&#160; </div>
+<div class="line"><a name="l00317"></a><span class="lineno">  317</span>&#160;<span class="preprocessor">#endif</span></div>
+<div class="line"><a name="l00318"></a><span class="lineno">  318</span>&#160;}</div>
 <div class="ttc" id="acallable__object_8h_html"><div class="ttname"><a href="callable__object_8h.html">callable_object.h</a></div></div>
 <div class="ttc" id="acallable__object_8h_html_a5aafa5a9c65ad07da48410427f4825b2"><div class="ttname"><a href="callable__object_8h.html#a5aafa5a9c65ad07da48410427f4825b2">DLAF_MAKE_CALLABLE_OBJECT</a></div><div class="ttdeci">#define DLAF_MAKE_CALLABLE_OBJECT(fname)</div><div class="ttdef"><b>Definition:</b> callable_object.h:26</div></div>
 <div class="ttc" id="acopy__tile_8h_html"><div class="ttname"><a href="copy__tile_8h.html">copy_tile.h</a></div></div>
diff --git a/master/merge_8h_source.html b/master/merge_8h_source.html
index 82f3951b55..b0f1773fd0 100644
--- a/master/merge_8h_source.html
+++ b/master/merge_8h_source.html
@@ -508,874 +508,897 @@
 <div class="line"><a name="l00437"></a><span class="lineno">  437</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
 <div class="line"><a name="l00438"></a><span class="lineno">  438</span>&#160;<span class="keywordtype">void</span> solveRank1Problem(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
 <div class="line"><a name="l00439"></a><span class="lineno">  439</span>&#160;                       Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
-<div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
-<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160; </div>
-<div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, evals.distribution());</div>
-<div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;  <span class="keyword">const</span> SizeType nb = evals.distribution().blockSize().rows();</div>
-<div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160; </div>
-<div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160; </div>
-<div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
-<div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = (i_end - i_begin)]() {</div>
-<div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
-<div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
-<div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
-<div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
-<div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;  }();</div>
-<div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160; </div>
-<div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160;  ex::start_detached(</div>
-<div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)), std::forward&lt;KSender&gt;(k),</div>
-<div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;                   std::forward&lt;RhoSender&gt;(rho), ex::when_all_vector(tc.read(d)),</div>
-<div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;                   ex::when_all_vector(tc.readwrite(z)), ex::when_all_vector(tc.readwrite(evals)),</div>
-<div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;                   ex::when_all_vector(tc.readwrite(evecs)),</div>
-<div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;())) |</div>
-<div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
-<div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;      ex::bulk(nthreads, [nthreads, n, nb](std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; k, <span class="keyword">auto</span>&amp; rho,</div>
-<div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;                                           <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">auto</span>&amp; eval_tiles,</div>
-<div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;                                           <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_vecs) {</div>
-<div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;        const matrix::Distribution distr(LocalElementSize(n, n), TileElementSize(nb, nb));</div>
-<div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160; </div>
-<div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
-<div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;        const std::size_t batch_size = util::ceilDiv(to_sizet(k), nthreads);</div>
-<div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160;        const std::size_t begin = thread_idx * batch_size;</div>
-<div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;        const std::size_t end = std::min(thread_idx * batch_size + batch_size, to_sizet(k));</div>
-<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160; </div>
-<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;        <span class="comment">// STEP 0: Initialize workspaces (single-thread)</span></div>
-<div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;        if (thread_idx == 0) {</div>
-<div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160;          ws_vecs.reserve(nthreads);</div>
-<div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;          for (std::size_t i = 0; i &lt; nthreads; ++i)</div>
-<div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;            ws_vecs.emplace_back(to_sizet(k));</div>
-<div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;        }</div>
-<div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160; </div>
-<div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160; </div>
-<div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
-<div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
-<div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
-<div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160; </div>
-<div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;        {</div>
-<div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160; </div>
-<div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
-<div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160; </div>
-<div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;          for (std::size_t i = begin; i &lt; end; ++i) {</div>
-<div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;            T&amp; eigenval = eval_ptr[i];</div>
-<div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160; </div>
-<div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160;            const SizeType i_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, to_SizeType(i)));</div>
-<div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;            const SizeType i_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(to_SizeType(i));</div>
-<div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;            T* delta = evec_tiles[to_sizet(i_tile)].ptr(TileElementIndex(0, i_col));</div>
-<div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160; </div>
-<div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;            lapack::laed4(to_int(k), to_int(i), d_ptr, z_ptr, delta, rho, &amp;eigenval);</div>
-<div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;          }</div>
-<div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160; </div>
-<div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160;          <span class="comment">// Note: for in-place row permutation implementation: The rows should be permuted for the k=2 case as well.</span></div>
-<div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160; </div>
-<div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160;          <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
-<div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;          if (k &lt;= 2)</div>
-<div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;            <span class="keywordflow">return</span>;</div>
-<div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;        }</div>
+<div class="line"><a name="l00440"></a><span class="lineno">  440</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
+<div class="line"><a name="l00441"></a><span class="lineno">  441</span>&#160;                       Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
+<div class="line"><a name="l00442"></a><span class="lineno">  442</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00443"></a><span class="lineno">  443</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00444"></a><span class="lineno">  444</span>&#160; </div>
+<div class="line"><a name="l00445"></a><span class="lineno">  445</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, evals.distribution());</div>
+<div class="line"><a name="l00446"></a><span class="lineno">  446</span>&#160;  <span class="keyword">const</span> SizeType nb = evals.distribution().blockSize().rows();</div>
+<div class="line"><a name="l00447"></a><span class="lineno">  447</span>&#160; </div>
+<div class="line"><a name="l00448"></a><span class="lineno">  448</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00449"></a><span class="lineno">  449</span>&#160; </div>
+<div class="line"><a name="l00450"></a><span class="lineno">  450</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
+<div class="line"><a name="l00451"></a><span class="lineno">  451</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = (i_end - i_begin)]() {</div>
+<div class="line"><a name="l00452"></a><span class="lineno">  452</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
+<div class="line"><a name="l00453"></a><span class="lineno">  453</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
+<div class="line"><a name="l00454"></a><span class="lineno">  454</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
+<div class="line"><a name="l00455"></a><span class="lineno">  455</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
+<div class="line"><a name="l00456"></a><span class="lineno">  456</span>&#160;  }();</div>
+<div class="line"><a name="l00457"></a><span class="lineno">  457</span>&#160; </div>
+<div class="line"><a name="l00458"></a><span class="lineno">  458</span>&#160;  ex::start_detached(</div>
+<div class="line"><a name="l00459"></a><span class="lineno">  459</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)), std::forward&lt;KSender&gt;(k),</div>
+<div class="line"><a name="l00460"></a><span class="lineno">  460</span>&#160;                   std::forward&lt;RhoSender&gt;(rho), ex::when_all_vector(tc.read(d)),</div>
+<div class="line"><a name="l00461"></a><span class="lineno">  461</span>&#160;                   ex::when_all_vector(tc.readwrite(z)), ex::when_all_vector(tc.readwrite(evals)),</div>
+<div class="line"><a name="l00462"></a><span class="lineno">  462</span>&#160;                   ex::when_all_vector(tc.read(i2)), ex::when_all_vector(tc.readwrite(evecs)),</div>
+<div class="line"><a name="l00463"></a><span class="lineno">  463</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;())) |</div>
+<div class="line"><a name="l00464"></a><span class="lineno">  464</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
+<div class="line"><a name="l00465"></a><span class="lineno">  465</span>&#160;      ex::bulk(nthreads, [nthreads, n, nb](std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; k, <span class="keyword">auto</span>&amp; rho,</div>
+<div class="line"><a name="l00466"></a><span class="lineno">  466</span>&#160;                                           <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">auto</span>&amp; eval_tiles,</div>
+<div class="line"><a name="l00467"></a><span class="lineno">  467</span>&#160;                                           <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_vecs) {</div>
+<div class="line"><a name="l00468"></a><span class="lineno">  468</span>&#160;        const matrix::Distribution distr(LocalElementSize(n, n), TileElementSize(nb, nb));</div>
+<div class="line"><a name="l00469"></a><span class="lineno">  469</span>&#160; </div>
+<div class="line"><a name="l00470"></a><span class="lineno">  470</span>&#160;        const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l00471"></a><span class="lineno">  471</span>&#160; </div>
+<div class="line"><a name="l00472"></a><span class="lineno">  472</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
+<div class="line"><a name="l00473"></a><span class="lineno">  473</span>&#160;        const std::size_t batch_size = util::ceilDiv(to_sizet(k), nthreads);</div>
+<div class="line"><a name="l00474"></a><span class="lineno">  474</span>&#160;        const std::size_t begin = thread_idx * batch_size;</div>
+<div class="line"><a name="l00475"></a><span class="lineno">  475</span>&#160;        const std::size_t end = std::min(thread_idx * batch_size + batch_size, to_sizet(k));</div>
+<div class="line"><a name="l00476"></a><span class="lineno">  476</span>&#160; </div>
+<div class="line"><a name="l00477"></a><span class="lineno">  477</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
+<div class="line"><a name="l00478"></a><span class="lineno">  478</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
+<div class="line"><a name="l00479"></a><span class="lineno">  479</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
+<div class="line"><a name="l00480"></a><span class="lineno">  480</span>&#160;        <span class="comment">// Note: use last thread that in principle should have less work to do</span></div>
+<div class="line"><a name="l00481"></a><span class="lineno">  481</span>&#160;        if (thread_idx == nthreads - 1) {</div>
+<div class="line"><a name="l00482"></a><span class="lineno">  482</span>&#160;          for (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00483"></a><span class="lineno">  483</span>&#160;            const SizeType j = i2_perm[to_sizet(i)];</div>
+<div class="line"><a name="l00484"></a><span class="lineno">  484</span>&#160; </div>
+<div class="line"><a name="l00485"></a><span class="lineno">  485</span>&#160;            <span class="comment">// if it is deflated</span></div>
+<div class="line"><a name="l00486"></a><span class="lineno">  486</span>&#160;            if (j &gt;= k) {</div>
+<div class="line"><a name="l00487"></a><span class="lineno">  487</span>&#160;              const GlobalElementIndex ij(i, j);</div>
+<div class="line"><a name="l00488"></a><span class="lineno">  488</span>&#160;              const auto linear_ij = distr.globalTileLinearIndex(ij);</div>
+<div class="line"><a name="l00489"></a><span class="lineno">  489</span>&#160;              const auto ij_el = distr.tileElementIndex(ij);</div>
+<div class="line"><a name="l00490"></a><span class="lineno">  490</span>&#160; </div>
+<div class="line"><a name="l00491"></a><span class="lineno">  491</span>&#160;              evec_tiles[to_sizet(linear_ij)](ij_el) = 1;</div>
+<div class="line"><a name="l00492"></a><span class="lineno">  492</span>&#160;            }</div>
+<div class="line"><a name="l00493"></a><span class="lineno">  493</span>&#160;          }</div>
+<div class="line"><a name="l00494"></a><span class="lineno">  494</span>&#160;        }</div>
+<div class="line"><a name="l00495"></a><span class="lineno">  495</span>&#160; </div>
+<div class="line"><a name="l00496"></a><span class="lineno">  496</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
+<div class="line"><a name="l00497"></a><span class="lineno">  497</span>&#160;        if (thread_idx == 0) {</div>
+<div class="line"><a name="l00498"></a><span class="lineno">  498</span>&#160;          ws_vecs.reserve(nthreads);</div>
+<div class="line"><a name="l00499"></a><span class="lineno">  499</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
+<div class="line"><a name="l00500"></a><span class="lineno">  500</span>&#160;            ws_vecs.emplace_back(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(k));</div>
+<div class="line"><a name="l00501"></a><span class="lineno">  501</span>&#160;        }</div>
+<div class="line"><a name="l00502"></a><span class="lineno">  502</span>&#160; </div>
+<div class="line"><a name="l00503"></a><span class="lineno">  503</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l00504"></a><span class="lineno">  504</span>&#160; </div>
+<div class="line"><a name="l00505"></a><span class="lineno">  505</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
+<div class="line"><a name="l00506"></a><span class="lineno">  506</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
+<div class="line"><a name="l00507"></a><span class="lineno">  507</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
 <div class="line"><a name="l00508"></a><span class="lineno">  508</span>&#160; </div>
-<div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160; </div>
-<div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160;        <span class="comment">// STEP 2a Compute weights (multi-thread)</span></div>
-<div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
-<div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160;        T* w = ws_vecs[thread_idx]();</div>
-<div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160; </div>
-<div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;        <span class="comment">// - copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
-<div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;          <span class="keywordflow">for</span> (<span class="keyword">auto</span> i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;            <span class="keyword">const</span> GlobalElementIndex kk(i, i);</div>
-<div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_tile = distr.globalTileLinearIndex(kk);</div>
-<div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_element = distr.tileElementIndex(kk);</div>
-<div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160; </div>
-<div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;            w[i] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(diag_tile)](diag_element);</div>
-<div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160;          }</div>
-<div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;        }</div>
-<div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;        <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;          std::fill_n(w, k, T(1));</div>
-<div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;        }</div>
-<div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160; </div>
-<div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;        <span class="comment">// - compute productorial</span></div>
-<div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;        <span class="keyword">auto</span> compute_w = [&amp;](<span class="keyword">const</span> GlobalElementIndex ij) {</div>
-<div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex(ij);</div>
-<div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex(ij);</div>
+<div class="line"><a name="l00509"></a><span class="lineno">  509</span>&#160;        {</div>
+<div class="line"><a name="l00510"></a><span class="lineno">  510</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l00511"></a><span class="lineno">  511</span>&#160; </div>
+<div class="line"><a name="l00512"></a><span class="lineno">  512</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
+<div class="line"><a name="l00513"></a><span class="lineno">  513</span>&#160; </div>
+<div class="line"><a name="l00514"></a><span class="lineno">  514</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = begin; i &lt; end; ++i) {</div>
+<div class="line"><a name="l00515"></a><span class="lineno">  515</span>&#160;            T&amp; eigenval = eval_ptr[i];</div>
+<div class="line"><a name="l00516"></a><span class="lineno">  516</span>&#160; </div>
+<div class="line"><a name="l00517"></a><span class="lineno">  517</span>&#160;            <span class="keyword">const</span> SizeType i_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(i)));</div>
+<div class="line"><a name="l00518"></a><span class="lineno">  518</span>&#160;            <span class="keyword">const</span> SizeType i_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(<a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(i));</div>
+<div class="line"><a name="l00519"></a><span class="lineno">  519</span>&#160;            T* delta = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_tile)].ptr(TileElementIndex(0, i_col));</div>
+<div class="line"><a name="l00520"></a><span class="lineno">  520</span>&#160; </div>
+<div class="line"><a name="l00521"></a><span class="lineno">  521</span>&#160;            lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i), d_ptr, z_ptr, delta, rho, &amp;eigenval);</div>
+<div class="line"><a name="l00522"></a><span class="lineno">  522</span>&#160;          }</div>
+<div class="line"><a name="l00523"></a><span class="lineno">  523</span>&#160; </div>
+<div class="line"><a name="l00524"></a><span class="lineno">  524</span>&#160;          <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
+<div class="line"><a name="l00525"></a><span class="lineno">  525</span>&#160;          <span class="keywordflow">if</span> (k &lt;= 2) {</div>
+<div class="line"><a name="l00526"></a><span class="lineno">  526</span>&#160;            <span class="comment">// Note: The rows should be permuted for the k=2 case as well.</span></div>
+<div class="line"><a name="l00527"></a><span class="lineno">  527</span>&#160;            <span class="keywordflow">if</span> (k == 2) {</div>
+<div class="line"><a name="l00528"></a><span class="lineno">  528</span>&#160;              T* ws = ws_vecs[thread_idx]();</div>
+<div class="line"><a name="l00529"></a><span class="lineno">  529</span>&#160;              <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
+<div class="line"><a name="l00530"></a><span class="lineno">  530</span>&#160;                <span class="keyword">const</span> SizeType j_tile = distr.globalTileLinearIndex(GlobalElementIndex(0, j));</div>
+<div class="line"><a name="l00531"></a><span class="lineno">  531</span>&#160;                <span class="keyword">const</span> SizeType j_col = distr.tileElementFromGlobalElement&lt;Coord::Col&gt;(j);</div>
+<div class="line"><a name="l00532"></a><span class="lineno">  532</span>&#160;                T* evec = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_tile)].ptr(TileElementIndex(0, j_col));</div>
 <div class="line"><a name="l00533"></a><span class="lineno">  533</span>&#160; </div>
-<div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;          <span class="keyword">const</span> SizeType i = ij.row();</div>
-<div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;          <span class="keyword">const</span> SizeType j = ij.col();</div>
-<div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160; </div>
-<div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;          w[i] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) / (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j)]);</div>
-<div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;        };</div>
-<div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160; </div>
-<div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;        <span class="keywordflow">for</span> (<span class="keyword">auto</span> j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
-<div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;          <span class="keywordflow">for</span> (<span class="keyword">auto</span> i = 0; i &lt; j; ++i)</div>
-<div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;            compute_w({i, j});</div>
-<div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160; </div>
-<div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;          <span class="keywordflow">for</span> (<span class="keyword">auto</span> i = j + 1; i &lt; k; ++i)</div>
-<div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;            compute_w({i, j});</div>
-<div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160;        }</div>
-<div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160; </div>
+<div class="line"><a name="l00534"></a><span class="lineno">  534</span>&#160;                std::copy(evec, evec + k, ws);</div>
+<div class="line"><a name="l00535"></a><span class="lineno">  535</span>&#160;                std::fill_n(evec, k, 0);  <span class="comment">// by default &quot;deflated&quot;</span></div>
+<div class="line"><a name="l00536"></a><span class="lineno">  536</span>&#160;                <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00537"></a><span class="lineno">  537</span>&#160;                  <span class="keyword">const</span> SizeType ii = i2_perm[i];</div>
+<div class="line"><a name="l00538"></a><span class="lineno">  538</span>&#160;                  <span class="keywordflow">if</span> (ii &lt; k)</div>
+<div class="line"><a name="l00539"></a><span class="lineno">  539</span>&#160;                    evec[i] = ws[ii];</div>
+<div class="line"><a name="l00540"></a><span class="lineno">  540</span>&#160;                }</div>
+<div class="line"><a name="l00541"></a><span class="lineno">  541</span>&#160;              }</div>
+<div class="line"><a name="l00542"></a><span class="lineno">  542</span>&#160;            }</div>
+<div class="line"><a name="l00543"></a><span class="lineno">  543</span>&#160;            <span class="keywordflow">return</span>;</div>
+<div class="line"><a name="l00544"></a><span class="lineno">  544</span>&#160;          }</div>
+<div class="line"><a name="l00545"></a><span class="lineno">  545</span>&#160;        }</div>
+<div class="line"><a name="l00546"></a><span class="lineno">  546</span>&#160; </div>
+<div class="line"><a name="l00547"></a><span class="lineno">  547</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
 <div class="line"><a name="l00548"></a><span class="lineno">  548</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l00549"></a><span class="lineno">  549</span>&#160; </div>
-<div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;        <span class="comment">// STEP 2B: reduce, then finalize computation with sign and square root (single-thread)</span></div>
-<div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
-<div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_vecs[tidx]();</div>
-<div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;              w[i] *= w_partial[i];</div>
-<div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;            }</div>
-<div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;            z_tiles[0].ptr()[i] = std::copysign(std::sqrt(-w[i]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)]);</div>
-<div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;          }</div>
-<div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;        }</div>
+<div class="line"><a name="l00550"></a><span class="lineno">  550</span>&#160;        <span class="comment">// STEP 2a Compute weights (multi-thread)</span></div>
+<div class="line"><a name="l00551"></a><span class="lineno">  551</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
+<div class="line"><a name="l00552"></a><span class="lineno">  552</span>&#160;        T* w = ws_vecs[thread_idx]();</div>
+<div class="line"><a name="l00553"></a><span class="lineno">  553</span>&#160; </div>
+<div class="line"><a name="l00554"></a><span class="lineno">  554</span>&#160;        <span class="comment">// - copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
+<div class="line"><a name="l00555"></a><span class="lineno">  555</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l00556"></a><span class="lineno">  556</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00557"></a><span class="lineno">  557</span>&#160;            <span class="keyword">const</span> GlobalElementIndex kk(i, i);</div>
+<div class="line"><a name="l00558"></a><span class="lineno">  558</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_tile = distr.globalTileLinearIndex(kk);</div>
+<div class="line"><a name="l00559"></a><span class="lineno">  559</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span> diag_element = distr.tileElementIndex(kk);</div>
 <div class="line"><a name="l00560"></a><span class="lineno">  560</span>&#160; </div>
-<div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160; </div>
-<div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
-<div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;        {</div>
-<div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160; </div>
-<div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160;          <span class="keyword">const</span> T* w = z_ptr;</div>
-<div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;          T* s = ws_vecs[thread_idx]();</div>
-<div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160; </div>
-<div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;          <span class="keywordflow">for</span> (<span class="keyword">auto</span> j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
-<div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;            <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
-<div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
-<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160; </div>
-<div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160;              s[i] = w[i] / q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij);</div>
-<div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;            }</div>
-<div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160; </div>
-<div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160;            <span class="keyword">const</span> T vec_norm = blas::nrm2(k, s, 1);</div>
-<div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160; </div>
-<div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;            <span class="keywordflow">for</span> (<span class="keyword">auto</span> i = 0; i &lt; k; ++i) {</div>
-<div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
-<div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
-<div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160; </div>
-<div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;              q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) = s[i] / vec_norm;</div>
-<div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;            }</div>
-<div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160;          }</div>
-<div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;        }</div>
-<div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160;      }));</div>
-<div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;}</div>
-<div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160; </div>
-<div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> KSender&gt;</div>
-<div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;<span class="keywordtype">void</span> setUnitDiag(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_end, KSender&amp;&amp; k, Matrix&lt;T, D&gt;&amp; mat) {</div>
-<div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;  <span class="comment">// Iterate over diagonal tiles</span></div>
-<div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; distr = mat.distribution();</div>
-<div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;  <span class="keywordflow">for</span> (SizeType i_tile = i_begin; i_tile &lt; i_end; ++i_tile) {</div>
-<div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;    <span class="keyword">const</span> SizeType tile_begin = distr.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i_tile);</div>
-<div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160; </div>
-<div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;    setUnitDiagonalAsync&lt;D&gt;(k, tile_begin, mat.readwrite(GlobalTileIndex(i_tile, i_tile)));</div>
-<div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160;  }</div>
-<div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;}</div>
+<div class="line"><a name="l00561"></a><span class="lineno">  561</span>&#160;            w[i] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(diag_tile)](diag_element);</div>
+<div class="line"><a name="l00562"></a><span class="lineno">  562</span>&#160;          }</div>
+<div class="line"><a name="l00563"></a><span class="lineno">  563</span>&#160;        }</div>
+<div class="line"><a name="l00564"></a><span class="lineno">  564</span>&#160;        <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l00565"></a><span class="lineno">  565</span>&#160;          std::fill_n(w, k, T(1));</div>
+<div class="line"><a name="l00566"></a><span class="lineno">  566</span>&#160;        }</div>
+<div class="line"><a name="l00567"></a><span class="lineno">  567</span>&#160; </div>
+<div class="line"><a name="l00568"></a><span class="lineno">  568</span>&#160;        <span class="comment">// - compute productorial</span></div>
+<div class="line"><a name="l00569"></a><span class="lineno">  569</span>&#160;        <span class="keyword">auto</span> compute_w = [&amp;](<span class="keyword">const</span> GlobalElementIndex ij) {</div>
+<div class="line"><a name="l00570"></a><span class="lineno">  570</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex(ij);</div>
+<div class="line"><a name="l00571"></a><span class="lineno">  571</span>&#160;          <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex(ij);</div>
+<div class="line"><a name="l00572"></a><span class="lineno">  572</span>&#160; </div>
+<div class="line"><a name="l00573"></a><span class="lineno">  573</span>&#160;          <span class="keyword">const</span> SizeType i = ij.row();</div>
+<div class="line"><a name="l00574"></a><span class="lineno">  574</span>&#160;          <span class="keyword">const</span> SizeType j = ij.col();</div>
+<div class="line"><a name="l00575"></a><span class="lineno">  575</span>&#160; </div>
+<div class="line"><a name="l00576"></a><span class="lineno">  576</span>&#160;          w[i] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) / (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j)]);</div>
+<div class="line"><a name="l00577"></a><span class="lineno">  577</span>&#160;        };</div>
+<div class="line"><a name="l00578"></a><span class="lineno">  578</span>&#160; </div>
+<div class="line"><a name="l00579"></a><span class="lineno">  579</span>&#160;        <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
+<div class="line"><a name="l00580"></a><span class="lineno">  580</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; j; ++i)</div>
+<div class="line"><a name="l00581"></a><span class="lineno">  581</span>&#160;            compute_w({i, j});</div>
+<div class="line"><a name="l00582"></a><span class="lineno">  582</span>&#160; </div>
+<div class="line"><a name="l00583"></a><span class="lineno">  583</span>&#160;          <span class="keywordflow">for</span> (SizeType i = j + 1; i &lt; k; ++i)</div>
+<div class="line"><a name="l00584"></a><span class="lineno">  584</span>&#160;            compute_w({i, j});</div>
+<div class="line"><a name="l00585"></a><span class="lineno">  585</span>&#160;        }</div>
+<div class="line"><a name="l00586"></a><span class="lineno">  586</span>&#160; </div>
+<div class="line"><a name="l00587"></a><span class="lineno">  587</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l00588"></a><span class="lineno">  588</span>&#160; </div>
+<div class="line"><a name="l00589"></a><span class="lineno">  589</span>&#160;        <span class="comment">// STEP 2B: reduce, then finalize computation with sign and square root (single-thread)</span></div>
+<div class="line"><a name="l00590"></a><span class="lineno">  590</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l00591"></a><span class="lineno">  591</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00592"></a><span class="lineno">  592</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
+<div class="line"><a name="l00593"></a><span class="lineno">  593</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_vecs[tidx]();</div>
+<div class="line"><a name="l00594"></a><span class="lineno">  594</span>&#160;              w[i] *= w_partial[i];</div>
+<div class="line"><a name="l00595"></a><span class="lineno">  595</span>&#160;            }</div>
+<div class="line"><a name="l00596"></a><span class="lineno">  596</span>&#160;            z_tiles[0].ptr()[i] = std::copysign(std::sqrt(-w[i]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i)]);</div>
+<div class="line"><a name="l00597"></a><span class="lineno">  597</span>&#160;          }</div>
+<div class="line"><a name="l00598"></a><span class="lineno">  598</span>&#160;        }</div>
+<div class="line"><a name="l00599"></a><span class="lineno">  599</span>&#160; </div>
+<div class="line"><a name="l00600"></a><span class="lineno">  600</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l00601"></a><span class="lineno">  601</span>&#160; </div>
-<div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;<span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;<span class="keywordtype">void</span> mergeSubproblems(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
-<div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;                      RhoSender&amp;&amp; rho, WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
-<div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160;                      WorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
-<div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160; </div>
-<div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
-<div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin(i_begin, i_begin);</div>
-<div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;  <span class="keyword">const</span> SizeType nrtiles = i_end - i_begin;</div>
-<div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles(nrtiles, nrtiles);</div>
-<div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160; </div>
-<div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
-<div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(nrtiles, 1);</div>
-<div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160; </div>
-<div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
-<div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;  <span class="keyword">const</span> SizeType n1 = problemSize(i_begin, i_split, ws.e0.distribution());</div>
+<div class="line"><a name="l00602"></a><span class="lineno">  602</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
+<div class="line"><a name="l00603"></a><span class="lineno">  603</span>&#160;        {</div>
+<div class="line"><a name="l00604"></a><span class="lineno">  604</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l00605"></a><span class="lineno">  605</span>&#160; </div>
+<div class="line"><a name="l00606"></a><span class="lineno">  606</span>&#160;          <span class="keyword">const</span> T* w = z_ptr;</div>
+<div class="line"><a name="l00607"></a><span class="lineno">  607</span>&#160;          T* s = ws_vecs[thread_idx]();</div>
+<div class="line"><a name="l00608"></a><span class="lineno">  608</span>&#160; </div>
+<div class="line"><a name="l00609"></a><span class="lineno">  609</span>&#160;          <span class="keywordflow">for</span> (SizeType j = <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(begin); j &lt; <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(end); ++j) {</div>
+<div class="line"><a name="l00610"></a><span class="lineno">  610</span>&#160;            <span class="keywordflow">for</span> (SizeType i = 0; i &lt; k; ++i) {</div>
+<div class="line"><a name="l00611"></a><span class="lineno">  611</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
+<div class="line"><a name="l00612"></a><span class="lineno">  612</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
+<div class="line"><a name="l00613"></a><span class="lineno">  613</span>&#160; </div>
+<div class="line"><a name="l00614"></a><span class="lineno">  614</span>&#160;              s[i] = w[i] / q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij);</div>
+<div class="line"><a name="l00615"></a><span class="lineno">  615</span>&#160;            }</div>
+<div class="line"><a name="l00616"></a><span class="lineno">  616</span>&#160; </div>
+<div class="line"><a name="l00617"></a><span class="lineno">  617</span>&#160;            <span class="keyword">const</span> T vec_norm = blas::nrm2(k, s, 1);</div>
 <div class="line"><a name="l00618"></a><span class="lineno">  618</span>&#160; </div>
-<div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
-<div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;  assembleZVec(i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
-<div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
-<div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160; </div>
-<div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
-<div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
-<div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160; </div>
-<div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
-<div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
-<div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160; </div>
-<div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
-<div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
-<div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160; </div>
-<div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;  <span class="comment">// Step #1</span></div>
-<div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;  <span class="comment">//    i1 (out) : initial &lt;--- initial (identity map)</span></div>
-<div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
-<div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
-<div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
-<div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
-<div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;  }</div>
-<div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
-<div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
-<div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;  }</div>
-<div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
-<div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160; </div>
-<div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;  <span class="keyword">auto</span> rots =</div>
-<div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
-<div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160; </div>
-<div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;  <span class="comment">// ---</span></div>
-<div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160; </div>
-<div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160;  applyGivensRotationsToMatrixColumns(i_begin, i_end, std::move(rots), ws.e0);</div>
-<div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;  <span class="comment">// Placeholder for rearranging the eigenvectors: (local permutation)</span></div>
-<div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e1);</div>
+<div class="line"><a name="l00619"></a><span class="lineno">  619</span>&#160;            <span class="keywordflow">for</span> (SizeType i = 0; i &lt; n; ++i) {</div>
+<div class="line"><a name="l00620"></a><span class="lineno">  620</span>&#160;              <span class="keyword">const</span> SizeType ii = i2_perm[i];</div>
+<div class="line"><a name="l00621"></a><span class="lineno">  621</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_tile = distr.globalTileLinearIndex({i, j});</div>
+<div class="line"><a name="l00622"></a><span class="lineno">  622</span>&#160;              <span class="keyword">const</span> <span class="keyword">auto</span> q_ij = distr.tileElementIndex({i, j});</div>
+<div class="line"><a name="l00623"></a><span class="lineno">  623</span>&#160; </div>
+<div class="line"><a name="l00624"></a><span class="lineno">  624</span>&#160;              <span class="keywordflow">if</span> (ii &lt; k)</div>
+<div class="line"><a name="l00625"></a><span class="lineno">  625</span>&#160;                q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) = s[ii] / vec_norm;</div>
+<div class="line"><a name="l00626"></a><span class="lineno">  626</span>&#160;              <span class="keywordflow">else</span></div>
+<div class="line"><a name="l00627"></a><span class="lineno">  627</span>&#160;                q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(q_tile)](q_ij) = 0;</div>
+<div class="line"><a name="l00628"></a><span class="lineno">  628</span>&#160;            }</div>
+<div class="line"><a name="l00629"></a><span class="lineno">  629</span>&#160;          }</div>
+<div class="line"><a name="l00630"></a><span class="lineno">  630</span>&#160;        }</div>
+<div class="line"><a name="l00631"></a><span class="lineno">  631</span>&#160;      }));</div>
+<div class="line"><a name="l00632"></a><span class="lineno">  632</span>&#160;}</div>
+<div class="line"><a name="l00633"></a><span class="lineno">  633</span>&#160; </div>
+<div class="line"><a name="l00634"></a><span class="lineno">  634</span>&#160;<span class="keyword">template</span> &lt;Backend B, Device D, <span class="keyword">class</span> T, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00635"></a><span class="lineno">  635</span>&#160;<span class="keywordtype">void</span> mergeSubproblems(<span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00636"></a><span class="lineno">  636</span>&#160;                      RhoSender&amp;&amp; rho, WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
+<div class="line"><a name="l00637"></a><span class="lineno">  637</span>&#160;                      WorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
+<div class="line"><a name="l00638"></a><span class="lineno">  638</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00639"></a><span class="lineno">  639</span>&#160; </div>
+<div class="line"><a name="l00640"></a><span class="lineno">  640</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
+<div class="line"><a name="l00641"></a><span class="lineno">  641</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin(i_begin, i_begin);</div>
+<div class="line"><a name="l00642"></a><span class="lineno">  642</span>&#160;  <span class="keyword">const</span> SizeType nrtiles = i_end - i_begin;</div>
+<div class="line"><a name="l00643"></a><span class="lineno">  643</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles(nrtiles, nrtiles);</div>
+<div class="line"><a name="l00644"></a><span class="lineno">  644</span>&#160; </div>
+<div class="line"><a name="l00645"></a><span class="lineno">  645</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
+<div class="line"><a name="l00646"></a><span class="lineno">  646</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(nrtiles, 1);</div>
+<div class="line"><a name="l00647"></a><span class="lineno">  647</span>&#160; </div>
+<div class="line"><a name="l00648"></a><span class="lineno">  648</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
+<div class="line"><a name="l00649"></a><span class="lineno">  649</span>&#160;  <span class="keyword">const</span> SizeType n1 = problemSize(i_begin, i_split, ws.e0.distribution());</div>
+<div class="line"><a name="l00650"></a><span class="lineno">  650</span>&#160; </div>
+<div class="line"><a name="l00651"></a><span class="lineno">  651</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
+<div class="line"><a name="l00652"></a><span class="lineno">  652</span>&#160;  assembleZVec(i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
+<div class="line"><a name="l00653"></a><span class="lineno">  653</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
+<div class="line"><a name="l00654"></a><span class="lineno">  654</span>&#160; </div>
+<div class="line"><a name="l00655"></a><span class="lineno">  655</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
+<div class="line"><a name="l00656"></a><span class="lineno">  656</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
 <div class="line"><a name="l00657"></a><span class="lineno">  657</span>&#160; </div>
-<div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;  <span class="comment">// Step #2</span></div>
-<div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160;  <span class="comment">//    i2 (in)  : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;  <span class="comment">//    i3 (out) : initial &lt;--- deflated</span></div>
-<div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
-<div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;  <span class="comment">// - solve the rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2`.</span></div>
-<div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
-<div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;  <span class="keyword">auto</span> k = stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_hm.i2, ws_h.i3) | ex::split();</div>
-<div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160; </div>
-<div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
-<div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
-<div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
-<div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160; </div>
-<div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;  <span class="comment">//    i3 (in)  : initial &lt;--- deflated</span></div>
-<div class="line"><a name="l00675"></a><span class="lineno">  675</span>&#160;  <span class="comment">//    i2 (out) : initial ---&gt; deflated</span></div>
-<div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
-<div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160; </div>
-<div class="line"><a name="l00679"></a><span class="lineno">  679</span>&#160;  <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160;  <span class="comment">// This is neeeded to set to zero elements of e2 outside of the k by k top-left part.</span></div>
-<div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;  <span class="comment">// The input is not required to be zero for solveRank1Problem.</span></div>
-<div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
-<div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160;                                  ws_hm.e2);</div>
-<div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;  solveRank1Problem(i_begin, i_end, k, scaled_rho, ws_hm.d1, ws_hm.z1, ws_h.d0, ws_hm.e2);</div>
+<div class="line"><a name="l00658"></a><span class="lineno">  658</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
+<div class="line"><a name="l00659"></a><span class="lineno">  659</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
+<div class="line"><a name="l00660"></a><span class="lineno">  660</span>&#160; </div>
+<div class="line"><a name="l00661"></a><span class="lineno">  661</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
+<div class="line"><a name="l00662"></a><span class="lineno">  662</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
+<div class="line"><a name="l00663"></a><span class="lineno">  663</span>&#160; </div>
+<div class="line"><a name="l00664"></a><span class="lineno">  664</span>&#160;  <span class="comment">// Step #1</span></div>
+<div class="line"><a name="l00665"></a><span class="lineno">  665</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00666"></a><span class="lineno">  666</span>&#160;  <span class="comment">//    i1 (out) : initial &lt;--- initial (identity map)</span></div>
+<div class="line"><a name="l00667"></a><span class="lineno">  667</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l00668"></a><span class="lineno">  668</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00669"></a><span class="lineno">  669</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
+<div class="line"><a name="l00670"></a><span class="lineno">  670</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
+<div class="line"><a name="l00671"></a><span class="lineno">  671</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00672"></a><span class="lineno">  672</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
+<div class="line"><a name="l00673"></a><span class="lineno">  673</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
+<div class="line"><a name="l00674"></a><span class="lineno">  674</span>&#160;  }</div>
+<div class="line"><a name="l00675"></a><span class="lineno">  675</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
+<div class="line"><a name="l00676"></a><span class="lineno">  676</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
+<div class="line"><a name="l00677"></a><span class="lineno">  677</span>&#160;  }</div>
+<div class="line"><a name="l00678"></a><span class="lineno">  678</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
+<div class="line"><a name="l00679"></a><span class="lineno">  679</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l00680"></a><span class="lineno">  680</span>&#160; </div>
+<div class="line"><a name="l00681"></a><span class="lineno">  681</span>&#160;  <span class="keyword">auto</span> rots =</div>
+<div class="line"><a name="l00682"></a><span class="lineno">  682</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
+<div class="line"><a name="l00683"></a><span class="lineno">  683</span>&#160; </div>
+<div class="line"><a name="l00684"></a><span class="lineno">  684</span>&#160;  <span class="comment">// ---</span></div>
 <div class="line"><a name="l00685"></a><span class="lineno">  685</span>&#160; </div>
-<div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
-<div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160; </div>
-<div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;  setUnitDiag(i_begin, i_end, k, ws.e2);</div>
+<div class="line"><a name="l00686"></a><span class="lineno">  686</span>&#160;  applyGivensRotationsToMatrixColumns(i_begin, i_end, std::move(rots), ws.e0);</div>
+<div class="line"><a name="l00687"></a><span class="lineno">  687</span>&#160;  <span class="comment">// Placeholder for rearranging the eigenvectors: (local permutation)</span></div>
+<div class="line"><a name="l00688"></a><span class="lineno">  688</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e1);</div>
 <div class="line"><a name="l00689"></a><span class="lineno">  689</span>&#160; </div>
-<div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l00690"></a><span class="lineno">  690</span>&#160;  <span class="comment">// Step #2</span></div>
 <div class="line"><a name="l00691"></a><span class="lineno">  691</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
-<div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
+<div class="line"><a name="l00692"></a><span class="lineno">  692</span>&#160;  <span class="comment">//    i2 (in)  : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l00693"></a><span class="lineno">  693</span>&#160;  <span class="comment">//    i3 (out) : initial &lt;--- deflated</span></div>
 <div class="line"><a name="l00694"></a><span class="lineno">  694</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws.i2);</div>
-<div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;  <span class="comment">// The following permutation will be removed in the future.</span></div>
-<div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;  <span class="comment">// (The copy is needed to simplify the removal)</span></div>
-<div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;  dlaf::permutations::permute&lt;B, D, T, Coord::Row&gt;(i_begin, i_end, ws.i2, ws.e2, ws.e0);</div>
-<div class="line"><a name="l00699"></a><span class="lineno">  699</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e2);</div>
-<div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160;  dlaf::multiplication::generalSubMatrix&lt;B, D, T&gt;(i_begin, i_end, blas::Op::NoTrans, blas::Op::NoTrans,</div>
-<div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;                                                  T(1), ws.e1, ws.e2, T(0), ws.e0);</div>
-<div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160; </div>
-<div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
-<div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
-<div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
-<div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
-<div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
-<div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;}</div>
-<div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160; </div>
-<div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;<span class="comment">// The bottom row of Q1 and the top row of Q2. The bottom row of Q1 is negated if `rho &lt; 0`.</span></div>
-<div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;<span class="comment">//</span></div>
-<div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;<span class="comment">// Note that the norm of `z` is sqrt(2) because it is a concatination of two normalized vectors. Hence</span></div>
-<div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;<span class="comment">// to normalize `z` we have to divide by sqrt(2).</span></div>
-<div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160;<span class="keywordtype">void</span> assembleDistZVec(comm::CommunicatorGrid grid, common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
-<div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;                      <span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
-<div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;                      RhoSender&amp;&amp; rho, Matrix&lt;const T, D&gt;&amp; evecs, Matrix&lt;T, D&gt;&amp; z) {</div>
-<div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160; </div>
-<div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
-<div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;  comm::Index2D this_rank = dist.rankIndex();</div>
+<div class="line"><a name="l00695"></a><span class="lineno">  695</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
+<div class="line"><a name="l00696"></a><span class="lineno">  696</span>&#160;  <span class="comment">// - solve the rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2`.</span></div>
+<div class="line"><a name="l00697"></a><span class="lineno">  697</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
+<div class="line"><a name="l00698"></a><span class="lineno">  698</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00699"></a><span class="lineno">  699</span>&#160;  <span class="keyword">auto</span> k = stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_hm.i2, ws_h.i3) | ex::split();</div>
+<div class="line"><a name="l00700"></a><span class="lineno">  700</span>&#160; </div>
+<div class="line"><a name="l00701"></a><span class="lineno">  701</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
+<div class="line"><a name="l00702"></a><span class="lineno">  702</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
+<div class="line"><a name="l00703"></a><span class="lineno">  703</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
+<div class="line"><a name="l00704"></a><span class="lineno">  704</span>&#160; </div>
+<div class="line"><a name="l00705"></a><span class="lineno">  705</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00706"></a><span class="lineno">  706</span>&#160;  <span class="comment">//    i3 (in)  : initial &lt;--- deflated</span></div>
+<div class="line"><a name="l00707"></a><span class="lineno">  707</span>&#160;  <span class="comment">//    i2 (out) : initial ---&gt; deflated</span></div>
+<div class="line"><a name="l00708"></a><span class="lineno">  708</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00709"></a><span class="lineno">  709</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
+<div class="line"><a name="l00710"></a><span class="lineno">  710</span>&#160; </div>
+<div class="line"><a name="l00711"></a><span class="lineno">  711</span>&#160;  <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00712"></a><span class="lineno">  712</span>&#160;  <span class="comment">// This is neeeded to set to zero elements of e2 outside of the k by k top-left part.</span></div>
+<div class="line"><a name="l00713"></a><span class="lineno">  713</span>&#160;  <span class="comment">// The input is not required to be zero for solveRank1Problem.</span></div>
+<div class="line"><a name="l00714"></a><span class="lineno">  714</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
+<div class="line"><a name="l00715"></a><span class="lineno">  715</span>&#160;                                  ws_hm.e2);</div>
+<div class="line"><a name="l00716"></a><span class="lineno">  716</span>&#160;  solveRank1Problem(i_begin, i_end, k, scaled_rho, ws_hm.d1, ws_hm.z1, ws_h.d0, ws_hm.i2, ws_hm.e2);</div>
+<div class="line"><a name="l00717"></a><span class="lineno">  717</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
+<div class="line"><a name="l00718"></a><span class="lineno">  718</span>&#160; </div>
+<div class="line"><a name="l00719"></a><span class="lineno">  719</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l00720"></a><span class="lineno">  720</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00721"></a><span class="lineno">  721</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
+<div class="line"><a name="l00722"></a><span class="lineno">  722</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
+<div class="line"><a name="l00723"></a><span class="lineno">  723</span>&#160;  dlaf::multiplication::generalSubMatrix&lt;B, D, T&gt;(i_begin, i_end, blas::Op::NoTrans, blas::Op::NoTrans,</div>
+<div class="line"><a name="l00724"></a><span class="lineno">  724</span>&#160;                                                  T(1), ws.e1, ws.e2, T(0), ws.e0);</div>
 <div class="line"><a name="l00725"></a><span class="lineno">  725</span>&#160; </div>
-<div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;  <span class="comment">// Iterate over tiles of Q1 and Q2 around the split row `i_split`.</span></div>
-<div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;    <span class="comment">// True if tile is in Q1</span></div>
-<div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;    <span class="keywordtype">bool</span> top_tile = i &lt; i_split;</div>
-<div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;    <span class="comment">// Move to the row below `i_split` for `Q2`</span></div>
-<div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;    <span class="keyword">const</span> SizeType evecs_row = i_split - ((top_tile) ? 1 : 0);</div>
-<div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;    <span class="keyword">const</span> GlobalTileIndex idx_evecs(evecs_row, i);</div>
-<div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160;    <span class="keyword">const</span> GlobalTileIndex z_idx(i, 0);</div>
-<div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160; </div>
-<div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160;    <span class="comment">// Copy the last row of a `Q1` tile or the first row of a `Q2` tile into a column vector `z` tile</span></div>
-<div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;    comm::Index2D evecs_tile_rank = dist.rankGlobalTile(idx_evecs);</div>
-<div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;    <span class="keywordflow">if</span> (evecs_tile_rank == this_rank) {</div>
-<div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;      <span class="comment">// Copy the row into the column vector `z`</span></div>
-<div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;      assembleRank1UpdateVectorTileAsync&lt;T, D&gt;(top_tile, rho, evecs.read(idx_evecs), z.readwrite(z_idx));</div>
-<div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;      ex::start_detached(comm::scheduleSendBcast(full_task_chain(), z.read(z_idx)));</div>
-<div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;    }</div>
-<div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;    <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI root_rank = grid.rankFullCommunicator(evecs_tile_rank);</div>
-<div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;      ex::start_detached(comm::scheduleRecvBcast(full_task_chain(), root_rank, z.readwrite(z_idx)));</div>
-<div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160;    }</div>
-<div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;  }</div>
-<div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;}</div>
+<div class="line"><a name="l00726"></a><span class="lineno">  726</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
+<div class="line"><a name="l00727"></a><span class="lineno">  727</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00728"></a><span class="lineno">  728</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
+<div class="line"><a name="l00729"></a><span class="lineno">  729</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
+<div class="line"><a name="l00730"></a><span class="lineno">  730</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l00731"></a><span class="lineno">  731</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
+<div class="line"><a name="l00732"></a><span class="lineno">  732</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l00733"></a><span class="lineno">  733</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
+<div class="line"><a name="l00734"></a><span class="lineno">  734</span>&#160;}</div>
+<div class="line"><a name="l00735"></a><span class="lineno">  735</span>&#160; </div>
+<div class="line"><a name="l00736"></a><span class="lineno">  736</span>&#160;<span class="comment">// The bottom row of Q1 and the top row of Q2. The bottom row of Q1 is negated if `rho &lt; 0`.</span></div>
+<div class="line"><a name="l00737"></a><span class="lineno">  737</span>&#160;<span class="comment">//</span></div>
+<div class="line"><a name="l00738"></a><span class="lineno">  738</span>&#160;<span class="comment">// Note that the norm of `z` is sqrt(2) because it is a concatination of two normalized vectors. Hence</span></div>
+<div class="line"><a name="l00739"></a><span class="lineno">  739</span>&#160;<span class="comment">// to normalize `z` we have to divide by sqrt(2).</span></div>
+<div class="line"><a name="l00740"></a><span class="lineno">  740</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00741"></a><span class="lineno">  741</span>&#160;<span class="keywordtype">void</span> assembleDistZVec(comm::CommunicatorGrid grid, common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
+<div class="line"><a name="l00742"></a><span class="lineno">  742</span>&#160;                      <span class="keyword">const</span> SizeType i_begin, <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end,</div>
+<div class="line"><a name="l00743"></a><span class="lineno">  743</span>&#160;                      RhoSender&amp;&amp; rho, Matrix&lt;const T, D&gt;&amp; evecs, Matrix&lt;T, D&gt;&amp; z) {</div>
+<div class="line"><a name="l00744"></a><span class="lineno">  744</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00745"></a><span class="lineno">  745</span>&#160; </div>
+<div class="line"><a name="l00746"></a><span class="lineno">  746</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
+<div class="line"><a name="l00747"></a><span class="lineno">  747</span>&#160;  comm::Index2D this_rank = dist.rankIndex();</div>
 <div class="line"><a name="l00748"></a><span class="lineno">  748</span>&#160; </div>
-<div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;<span class="keywordtype">void</span> solveRank1ProblemDist(CommSender&amp;&amp; row_comm, CommSender&amp;&amp; col_comm, <span class="keyword">const</span> SizeType i_begin,</div>
-<div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;                           <span class="keyword">const</span> SizeType i_end, <span class="keyword">const</span> LocalTileIndex ij_begin_lc,</div>
-<div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;                           <span class="keyword">const</span> LocalTileSize sz_loc_tiles, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
-<div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160;                           Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
-<div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
-<div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
-<div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
-<div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;  <span class="keyword">namespace </span>tt = pika::this_thread::experimental;</div>
-<div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160; </div>
-<div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
-<div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160; </div>
-<div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;  TileCollector tc{i_begin, i_end};</div>
-<div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160; </div>
-<div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, dist);</div>
-<div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160; </div>
-<div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;  <span class="keyword">const</span> SizeType m_subm_el_lc = [=]() {</div>
-<div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.row();</div>
-<div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.row() + sz_loc_tiles.rows();</div>
-<div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(i_loc_begin, i_loc_end);</div>
-<div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;  }();</div>
+<div class="line"><a name="l00749"></a><span class="lineno">  749</span>&#160;  <span class="comment">// Iterate over tiles of Q1 and Q2 around the split row `i_split`.</span></div>
+<div class="line"><a name="l00750"></a><span class="lineno">  750</span>&#160;  <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
+<div class="line"><a name="l00751"></a><span class="lineno">  751</span>&#160;    <span class="comment">// True if tile is in Q1</span></div>
+<div class="line"><a name="l00752"></a><span class="lineno">  752</span>&#160;    <span class="keywordtype">bool</span> top_tile = i &lt; i_split;</div>
+<div class="line"><a name="l00753"></a><span class="lineno">  753</span>&#160;    <span class="comment">// Move to the row below `i_split` for `Q2`</span></div>
+<div class="line"><a name="l00754"></a><span class="lineno">  754</span>&#160;    <span class="keyword">const</span> SizeType evecs_row = i_split - ((top_tile) ? 1 : 0);</div>
+<div class="line"><a name="l00755"></a><span class="lineno">  755</span>&#160;    <span class="keyword">const</span> GlobalTileIndex idx_evecs(evecs_row, i);</div>
+<div class="line"><a name="l00756"></a><span class="lineno">  756</span>&#160;    <span class="keyword">const</span> GlobalTileIndex z_idx(i, 0);</div>
+<div class="line"><a name="l00757"></a><span class="lineno">  757</span>&#160; </div>
+<div class="line"><a name="l00758"></a><span class="lineno">  758</span>&#160;    <span class="comment">// Copy the last row of a `Q1` tile or the first row of a `Q2` tile into a column vector `z` tile</span></div>
+<div class="line"><a name="l00759"></a><span class="lineno">  759</span>&#160;    comm::Index2D evecs_tile_rank = dist.rankGlobalTile(idx_evecs);</div>
+<div class="line"><a name="l00760"></a><span class="lineno">  760</span>&#160;    <span class="keywordflow">if</span> (evecs_tile_rank == this_rank) {</div>
+<div class="line"><a name="l00761"></a><span class="lineno">  761</span>&#160;      <span class="comment">// Copy the row into the column vector `z`</span></div>
+<div class="line"><a name="l00762"></a><span class="lineno">  762</span>&#160;      assembleRank1UpdateVectorTileAsync&lt;T, D&gt;(top_tile, rho, evecs.read(idx_evecs), z.readwrite(z_idx));</div>
+<div class="line"><a name="l00763"></a><span class="lineno">  763</span>&#160;      ex::start_detached(comm::scheduleSendBcast(full_task_chain(), z.read(z_idx)));</div>
+<div class="line"><a name="l00764"></a><span class="lineno">  764</span>&#160;    }</div>
+<div class="line"><a name="l00765"></a><span class="lineno">  765</span>&#160;    <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l00766"></a><span class="lineno">  766</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI root_rank = grid.rankFullCommunicator(evecs_tile_rank);</div>
+<div class="line"><a name="l00767"></a><span class="lineno">  767</span>&#160;      ex::start_detached(comm::scheduleRecvBcast(full_task_chain(), root_rank, z.readwrite(z_idx)));</div>
+<div class="line"><a name="l00768"></a><span class="lineno">  768</span>&#160;    }</div>
+<div class="line"><a name="l00769"></a><span class="lineno">  769</span>&#160;  }</div>
+<div class="line"><a name="l00770"></a><span class="lineno">  770</span>&#160;}</div>
 <div class="line"><a name="l00771"></a><span class="lineno">  771</span>&#160; </div>
-<div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160;  <span class="keyword">const</span> SizeType n_subm_el_lc = [=]() {</div>
-<div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.col();</div>
-<div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.col() + sz_loc_tiles.cols();</div>
-<div class="line"><a name="l00775"></a><span class="lineno">  775</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Col&gt;(i_loc_begin, i_loc_end);</div>
-<div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;  }();</div>
-<div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160; </div>
-<div class="line"><a name="l00778"></a><span class="lineno">  778</span>&#160;  <span class="keyword">auto</span> bcast_evals = [i_begin, i_end,</div>
-<div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;                      dist](common::Pipeline&lt;comm::Communicator&gt;&amp; row_comm_chain,</div>
-<div class="line"><a name="l00780"></a><span class="lineno">  780</span>&#160;                            <span class="keyword">const</span> std::vector&lt;matrix::Tile&lt;T, Device::CPU&gt;&gt;&amp; eval_tiles) {</div>
-<div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::sendBcast_o;</div>
-<div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::recvBcast_o;</div>
-<div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160; </div>
-<div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160;    <span class="keyword">const</span> comm::Index2D this_rank = dist.rankIndex();</div>
-<div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160; </div>
-<div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160;    std::vector&lt;ex::unique_any_sender&lt;&gt;&gt; comms;</div>
-<div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;    comms.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_end - i_begin));</div>
+<div class="line"><a name="l00772"></a><span class="lineno">  772</span>&#160;<span class="keyword">template</span> &lt;<span class="keyword">class</span> T, <span class="keyword">class</span> CommSender, <span class="keyword">class</span> KSender, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l00773"></a><span class="lineno">  773</span>&#160;<span class="keywordtype">void</span> solveRank1ProblemDist(CommSender&amp;&amp; row_comm, CommSender&amp;&amp; col_comm, <span class="keyword">const</span> SizeType i_begin,</div>
+<div class="line"><a name="l00774"></a><span class="lineno">  774</span>&#160;                           <span class="keyword">const</span> SizeType i_end, <span class="keyword">const</span> LocalTileIndex ij_begin_lc,</div>
+<div class="line"><a name="l00775"></a><span class="lineno">  775</span>&#160;                           <span class="keyword">const</span> LocalTileSize sz_loc_tiles, KSender&amp;&amp; k, RhoSender&amp;&amp; rho,</div>
+<div class="line"><a name="l00776"></a><span class="lineno">  776</span>&#160;                           Matrix&lt;const T, Device::CPU&gt;&amp; d, Matrix&lt;T, Device::CPU&gt;&amp; z,</div>
+<div class="line"><a name="l00777"></a><span class="lineno">  777</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evals, Matrix&lt;const SizeType, Device::CPU&gt;&amp; i2,</div>
+<div class="line"><a name="l00778"></a><span class="lineno">  778</span>&#160;                           Matrix&lt;T, Device::CPU&gt;&amp; evecs) {</div>
+<div class="line"><a name="l00779"></a><span class="lineno">  779</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l00780"></a><span class="lineno">  780</span>&#160;  <span class="keyword">namespace </span>di = dlaf::internal;</div>
+<div class="line"><a name="l00781"></a><span class="lineno">  781</span>&#160;  <span class="keyword">namespace </span>tt = pika::this_thread::experimental;</div>
+<div class="line"><a name="l00782"></a><span class="lineno">  782</span>&#160; </div>
+<div class="line"><a name="l00783"></a><span class="lineno">  783</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist = evecs.distribution();</div>
+<div class="line"><a name="l00784"></a><span class="lineno">  784</span>&#160; </div>
+<div class="line"><a name="l00785"></a><span class="lineno">  785</span>&#160;  TileCollector tc{i_begin, i_end};</div>
+<div class="line"><a name="l00786"></a><span class="lineno">  786</span>&#160; </div>
+<div class="line"><a name="l00787"></a><span class="lineno">  787</span>&#160;  <span class="keyword">const</span> SizeType n = problemSize(i_begin, i_end, dist);</div>
 <div class="line"><a name="l00788"></a><span class="lineno">  788</span>&#160; </div>
-<div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;    <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
-<div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI evecs_tile_rank = dist.rankGlobalTile&lt;Coord::Col&gt;(i);</div>
-<div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;      <span class="keyword">auto</span>&amp; tile = eval_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)];</div>
-<div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160; </div>
-<div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;      <span class="keywordflow">if</span> (evecs_tile_rank == this_rank.col())</div>
-<div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(std::cref(tile))) |</div>
-<div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;                           transformMPI(sendBcast_o));</div>
-<div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;      <span class="keywordflow">else</span></div>
-<div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(evecs_tile_rank, std::cref(tile))) |</div>
-<div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;                           transformMPI(recvBcast_o));</div>
-<div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;    }</div>
+<div class="line"><a name="l00789"></a><span class="lineno">  789</span>&#160;  <span class="keyword">const</span> SizeType m_subm_el_lc = [=]() {</div>
+<div class="line"><a name="l00790"></a><span class="lineno">  790</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.row();</div>
+<div class="line"><a name="l00791"></a><span class="lineno">  791</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.row() + sz_loc_tiles.rows();</div>
+<div class="line"><a name="l00792"></a><span class="lineno">  792</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(i_loc_begin, i_loc_end);</div>
+<div class="line"><a name="l00793"></a><span class="lineno">  793</span>&#160;  }();</div>
+<div class="line"><a name="l00794"></a><span class="lineno">  794</span>&#160; </div>
+<div class="line"><a name="l00795"></a><span class="lineno">  795</span>&#160;  <span class="keyword">const</span> SizeType n_subm_el_lc = [=]() {</div>
+<div class="line"><a name="l00796"></a><span class="lineno">  796</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_begin = ij_begin_lc.col();</div>
+<div class="line"><a name="l00797"></a><span class="lineno">  797</span>&#160;    <span class="keyword">const</span> <span class="keyword">auto</span> i_loc_end = ij_begin_lc.col() + sz_loc_tiles.cols();</div>
+<div class="line"><a name="l00798"></a><span class="lineno">  798</span>&#160;    <span class="keywordflow">return</span> dist.localElementDistanceFromLocalTile&lt;Coord::Col&gt;(i_loc_begin, i_loc_end);</div>
+<div class="line"><a name="l00799"></a><span class="lineno">  799</span>&#160;  }();</div>
 <div class="line"><a name="l00800"></a><span class="lineno">  800</span>&#160; </div>
-<div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160;    <span class="keywordflow">return</span> ex::ensure_started(ex::when_all_vector(std::move(comms)));</div>
-<div class="line"><a name="l00802"></a><span class="lineno">  802</span>&#160;  };</div>
-<div class="line"><a name="l00803"></a><span class="lineno">  803</span>&#160; </div>
-<div class="line"><a name="l00804"></a><span class="lineno">  804</span>&#160;  <span class="keyword">auto</span> all_reduce_in_place = [](<span class="keyword">const</span> <a class="code" href="classdlaf_1_1comm_1_1_communicator.html">dlaf::comm::Communicator</a>&amp; comm, MPI_Op reduce_op, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; data,</div>
-<div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;                                MPI_Request* req) {</div>
-<div class="line"><a name="l00806"></a><span class="lineno">  806</span>&#160;    <span class="keyword">auto</span> msg = comm::make_message(data);</div>
-<div class="line"><a name="l00807"></a><span class="lineno">  807</span>&#160;    DLAF_MPI_CHECK_ERROR(MPI_Iallreduce(MPI_IN_PLACE, msg.data(), msg.count(), msg.mpi_type(), reduce_op,</div>
-<div class="line"><a name="l00808"></a><span class="lineno">  808</span>&#160;                                        comm, req));</div>
-<div class="line"><a name="l00809"></a><span class="lineno">  809</span>&#160;  };</div>
-<div class="line"><a name="l00810"></a><span class="lineno">  810</span>&#160; </div>
-<div class="line"><a name="l00811"></a><span class="lineno">  811</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
-<div class="line"><a name="l00812"></a><span class="lineno">  812</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = sz_loc_tiles.cols()]() {</div>
-<div class="line"><a name="l00813"></a><span class="lineno">  813</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
-<div class="line"><a name="l00814"></a><span class="lineno">  814</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
-<div class="line"><a name="l00815"></a><span class="lineno">  815</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
-<div class="line"><a name="l00816"></a><span class="lineno">  816</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
-<div class="line"><a name="l00817"></a><span class="lineno">  817</span>&#160;  }();</div>
-<div class="line"><a name="l00818"></a><span class="lineno">  818</span>&#160; </div>
-<div class="line"><a name="l00819"></a><span class="lineno">  819</span>&#160;  ex::start_detached(</div>
-<div class="line"><a name="l00820"></a><span class="lineno">  820</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)),</div>
-<div class="line"><a name="l00821"></a><span class="lineno">  821</span>&#160;                   std::forward&lt;CommSender&gt;(row_comm), std::forward&lt;CommSender&gt;(col_comm),</div>
-<div class="line"><a name="l00822"></a><span class="lineno">  822</span>&#160;                   std::forward&lt;KSender&gt;(k), std::forward&lt;RhoSender&gt;(rho),</div>
-<div class="line"><a name="l00823"></a><span class="lineno">  823</span>&#160;                   ex::when_all_vector(tc.read(d)), ex::when_all_vector(tc.readwrite(z)),</div>
-<div class="line"><a name="l00824"></a><span class="lineno">  824</span>&#160;                   ex::when_all_vector(tc.readwrite(evals)), ex::when_all_vector(tc.read(i2)),</div>
-<div class="line"><a name="l00825"></a><span class="lineno">  825</span>&#160;                   ex::when_all_vector(tc.readwrite(evecs)),</div>
-<div class="line"><a name="l00826"></a><span class="lineno">  826</span>&#160;                   <span class="comment">// additional workspaces</span></div>
-<div class="line"><a name="l00827"></a><span class="lineno">  827</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;()),</div>
-<div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160;                   ex::just(memory::MemoryView&lt;T, Device::CPU&gt;())) |</div>
-<div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
-<div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;      ex::bulk(nthreads, [nthreads, n, n_subm_el_lc, m_subm_el_lc, i_begin, ij_begin_lc, sz_loc_tiles,</div>
-<div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;                          dist, bcast_evals, all_reduce_in_place](</div>
-<div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160;                             <span class="keyword">const</span> std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; row_comm_wrapper,</div>
-<div class="line"><a name="l00833"></a><span class="lineno">  833</span>&#160;                             <span class="keyword">auto</span>&amp; col_comm_wrapper, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; k, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; rho,</div>
-<div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; eval_tiles,</div>
-<div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_cols,</div>
-<div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;                             <span class="keyword">auto</span>&amp; ws_row) {</div>
-<div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;        using dlaf::comm::internal::transformMPI;</div>
-<div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160; </div>
-<div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;        common::Pipeline&lt;comm::Communicator&gt; row_comm_chain(row_comm_wrapper.get());</div>
-<div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;        const dlaf::comm::Communicator&amp; col_comm = col_comm_wrapper.get();</div>
+<div class="line"><a name="l00801"></a><span class="lineno">  801</span>&#160;  <span class="keyword">auto</span> bcast_evals = [i_begin, i_end,</div>
+<div class="line"><a name="l00802"></a><span class="lineno">  802</span>&#160;                      dist](common::Pipeline&lt;comm::Communicator&gt;&amp; row_comm_chain,</div>
+<div class="line"><a name="l00803"></a><span class="lineno">  803</span>&#160;                            <span class="keyword">const</span> std::vector&lt;matrix::Tile&lt;T, Device::CPU&gt;&gt;&amp; eval_tiles) {</div>
+<div class="line"><a name="l00804"></a><span class="lineno">  804</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::sendBcast_o;</div>
+<div class="line"><a name="l00805"></a><span class="lineno">  805</span>&#160;    <span class="keyword">using</span> dlaf::comm::internal::recvBcast_o;</div>
+<div class="line"><a name="l00806"></a><span class="lineno">  806</span>&#160; </div>
+<div class="line"><a name="l00807"></a><span class="lineno">  807</span>&#160;    <span class="keyword">const</span> comm::Index2D this_rank = dist.rankIndex();</div>
+<div class="line"><a name="l00808"></a><span class="lineno">  808</span>&#160; </div>
+<div class="line"><a name="l00809"></a><span class="lineno">  809</span>&#160;    std::vector&lt;ex::unique_any_sender&lt;&gt;&gt; comms;</div>
+<div class="line"><a name="l00810"></a><span class="lineno">  810</span>&#160;    comms.reserve(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_end - i_begin));</div>
+<div class="line"><a name="l00811"></a><span class="lineno">  811</span>&#160; </div>
+<div class="line"><a name="l00812"></a><span class="lineno">  812</span>&#160;    <span class="keywordflow">for</span> (SizeType i = i_begin; i &lt; i_end; ++i) {</div>
+<div class="line"><a name="l00813"></a><span class="lineno">  813</span>&#160;      <span class="keyword">const</span> comm::IndexT_MPI evecs_tile_rank = dist.rankGlobalTile&lt;Coord::Col&gt;(i);</div>
+<div class="line"><a name="l00814"></a><span class="lineno">  814</span>&#160;      <span class="keyword">auto</span>&amp; tile = eval_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)];</div>
+<div class="line"><a name="l00815"></a><span class="lineno">  815</span>&#160; </div>
+<div class="line"><a name="l00816"></a><span class="lineno">  816</span>&#160;      <span class="keywordflow">if</span> (evecs_tile_rank == this_rank.col())</div>
+<div class="line"><a name="l00817"></a><span class="lineno">  817</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(std::cref(tile))) |</div>
+<div class="line"><a name="l00818"></a><span class="lineno">  818</span>&#160;                           transformMPI(sendBcast_o));</div>
+<div class="line"><a name="l00819"></a><span class="lineno">  819</span>&#160;      <span class="keywordflow">else</span></div>
+<div class="line"><a name="l00820"></a><span class="lineno">  820</span>&#160;        comms.emplace_back(ex::when_all(row_comm_chain(), ex::just(evecs_tile_rank, std::cref(tile))) |</div>
+<div class="line"><a name="l00821"></a><span class="lineno">  821</span>&#160;                           transformMPI(recvBcast_o));</div>
+<div class="line"><a name="l00822"></a><span class="lineno">  822</span>&#160;    }</div>
+<div class="line"><a name="l00823"></a><span class="lineno">  823</span>&#160; </div>
+<div class="line"><a name="l00824"></a><span class="lineno">  824</span>&#160;    <span class="keywordflow">return</span> ex::ensure_started(ex::when_all_vector(std::move(comms)));</div>
+<div class="line"><a name="l00825"></a><span class="lineno">  825</span>&#160;  };</div>
+<div class="line"><a name="l00826"></a><span class="lineno">  826</span>&#160; </div>
+<div class="line"><a name="l00827"></a><span class="lineno">  827</span>&#160;  <span class="keyword">auto</span> all_reduce_in_place = [](<span class="keyword">const</span> <a class="code" href="classdlaf_1_1comm_1_1_communicator.html">dlaf::comm::Communicator</a>&amp; comm, MPI_Op reduce_op, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; data,</div>
+<div class="line"><a name="l00828"></a><span class="lineno">  828</span>&#160;                                MPI_Request* req) {</div>
+<div class="line"><a name="l00829"></a><span class="lineno">  829</span>&#160;    <span class="keyword">auto</span> msg = comm::make_message(data);</div>
+<div class="line"><a name="l00830"></a><span class="lineno">  830</span>&#160;    DLAF_MPI_CHECK_ERROR(MPI_Iallreduce(MPI_IN_PLACE, msg.data(), msg.count(), msg.mpi_type(), reduce_op,</div>
+<div class="line"><a name="l00831"></a><span class="lineno">  831</span>&#160;                                        comm, req));</div>
+<div class="line"><a name="l00832"></a><span class="lineno">  832</span>&#160;  };</div>
+<div class="line"><a name="l00833"></a><span class="lineno">  833</span>&#160; </div>
+<div class="line"><a name="l00834"></a><span class="lineno">  834</span>&#160;  <span class="comment">// Note: at least two column of tiles per-worker, in the range [1, getTridiagRank1NWorkers()]</span></div>
+<div class="line"><a name="l00835"></a><span class="lineno">  835</span>&#160;  <span class="keyword">const</span> std::size_t nthreads = [nrtiles = sz_loc_tiles.cols()]() {</div>
+<div class="line"><a name="l00836"></a><span class="lineno">  836</span>&#160;    <span class="keyword">const</span> std::size_t min_workers = 1;</div>
+<div class="line"><a name="l00837"></a><span class="lineno">  837</span>&#160;    <span class="keyword">const</span> std::size_t available_workers = getTridiagRank1NWorkers();</div>
+<div class="line"><a name="l00838"></a><span class="lineno">  838</span>&#160;    <span class="keyword">const</span> std::size_t ideal_workers = util::ceilDiv(<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(nrtiles), <a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(2));</div>
+<div class="line"><a name="l00839"></a><span class="lineno">  839</span>&#160;    <span class="keywordflow">return</span> std::clamp(ideal_workers, min_workers, available_workers);</div>
+<div class="line"><a name="l00840"></a><span class="lineno">  840</span>&#160;  }();</div>
 <div class="line"><a name="l00841"></a><span class="lineno">  841</span>&#160; </div>
-<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
-<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;        const std::size_t batch_size =</div>
-<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;            std::max&lt;std::size_t&gt;(2, util::ceilDiv(to_sizet(sz_loc_tiles.cols()), nthreads));</div>
-<div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;        const SizeType begin = to_SizeType(thread_idx * batch_size);</div>
-<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;        const SizeType end = std::min(to_SizeType((thread_idx + 1) * batch_size), sz_loc_tiles.cols());</div>
-<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160; </div>
-<div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
-<div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
-<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
-<div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;        <span class="comment">// Note: use last threads that in principle should have less work to do</span></div>
-<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;        if (thread_idx == nthreads - 1) {</div>
-<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;          <span class="comment">// just if there are deflated eigenvectors</span></div>
-<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;          if (k &lt; n) {</div>
-<div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;            const GlobalElementSize origin_el(i_begin * dist.blockSize().rows(),</div>
-<div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;                                              i_begin * dist.blockSize().cols());</div>
-<div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;            const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
-<div class="line"><a name="l00858"></a><span class="lineno">  858</span>&#160; </div>
-<div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;            for (SizeType i_subm_el = 0; i_subm_el &lt; n; ++i_subm_el) {</div>
-<div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;              const SizeType j_subm_el = i2_perm[i_subm_el];</div>
+<div class="line"><a name="l00842"></a><span class="lineno">  842</span>&#160;  ex::start_detached(</div>
+<div class="line"><a name="l00843"></a><span class="lineno">  843</span>&#160;      ex::when_all(ex::just(std::make_unique&lt;pika::barrier&lt;&gt;&gt;(nthreads)),</div>
+<div class="line"><a name="l00844"></a><span class="lineno">  844</span>&#160;                   std::forward&lt;CommSender&gt;(row_comm), std::forward&lt;CommSender&gt;(col_comm),</div>
+<div class="line"><a name="l00845"></a><span class="lineno">  845</span>&#160;                   std::forward&lt;KSender&gt;(k), std::forward&lt;RhoSender&gt;(rho),</div>
+<div class="line"><a name="l00846"></a><span class="lineno">  846</span>&#160;                   ex::when_all_vector(tc.read(d)), ex::when_all_vector(tc.readwrite(z)),</div>
+<div class="line"><a name="l00847"></a><span class="lineno">  847</span>&#160;                   ex::when_all_vector(tc.readwrite(evals)), ex::when_all_vector(tc.read(i2)),</div>
+<div class="line"><a name="l00848"></a><span class="lineno">  848</span>&#160;                   ex::when_all_vector(tc.readwrite(evecs)),</div>
+<div class="line"><a name="l00849"></a><span class="lineno">  849</span>&#160;                   <span class="comment">// additional workspaces</span></div>
+<div class="line"><a name="l00850"></a><span class="lineno">  850</span>&#160;                   ex::just(std::vector&lt;memory::MemoryView&lt;T, Device::CPU&gt;&gt;()),</div>
+<div class="line"><a name="l00851"></a><span class="lineno">  851</span>&#160;                   ex::just(memory::MemoryView&lt;T, Device::CPU&gt;())) |</div>
+<div class="line"><a name="l00852"></a><span class="lineno">  852</span>&#160;      ex::transfer(di::getBackendScheduler&lt;Backend::MC&gt;(pika::execution::thread_priority::high)) |</div>
+<div class="line"><a name="l00853"></a><span class="lineno">  853</span>&#160;      ex::bulk(nthreads, [nthreads, n, n_subm_el_lc, m_subm_el_lc, i_begin, ij_begin_lc, sz_loc_tiles,</div>
+<div class="line"><a name="l00854"></a><span class="lineno">  854</span>&#160;                          dist, bcast_evals, all_reduce_in_place](</div>
+<div class="line"><a name="l00855"></a><span class="lineno">  855</span>&#160;                             <span class="keyword">const</span> std::size_t thread_idx, <span class="keyword">auto</span>&amp; barrier_ptr, <span class="keyword">auto</span>&amp; row_comm_wrapper,</div>
+<div class="line"><a name="l00856"></a><span class="lineno">  856</span>&#160;                             <span class="keyword">auto</span>&amp; col_comm_wrapper, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; k, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; rho,</div>
+<div class="line"><a name="l00857"></a><span class="lineno">  857</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; d_tiles_futs, <span class="keyword">auto</span>&amp; z_tiles, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; eval_tiles,</div>
+<div class="line"><a name="l00858"></a><span class="lineno">  858</span>&#160;                             <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_tile_arr, <span class="keyword">const</span> <span class="keyword">auto</span>&amp; evec_tiles, <span class="keyword">auto</span>&amp; ws_cols,</div>
+<div class="line"><a name="l00859"></a><span class="lineno">  859</span>&#160;                             <span class="keyword">auto</span>&amp; ws_row) {</div>
+<div class="line"><a name="l00860"></a><span class="lineno">  860</span>&#160;        using dlaf::comm::internal::transformMPI;</div>
 <div class="line"><a name="l00861"></a><span class="lineno">  861</span>&#160; </div>
-<div class="line"><a name="l00862"></a><span class="lineno">  862</span>&#160;              <span class="comment">// if it is a deflated vector</span></div>
-<div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;              if (j_subm_el &gt;= k) {</div>
-<div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160;                const GlobalElementIndex ij_el(origin_el.rows() + i_subm_el,</div>
-<div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160;                                               origin_el.cols() + j_subm_el);</div>
-<div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;                const GlobalTileIndex ij = dist.globalTileIndex(ij_el);</div>
-<div class="line"><a name="l00867"></a><span class="lineno">  867</span>&#160; </div>
-<div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;                if (dist.rankIndex() == dist.rankGlobalTile(ij)) {</div>
-<div class="line"><a name="l00869"></a><span class="lineno">  869</span>&#160;                  const LocalTileIndex ij_lc = dist.localTileIndex(ij);</div>
-<div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160;                  const SizeType linear_subm_lc =</div>
-<div class="line"><a name="l00871"></a><span class="lineno">  871</span>&#160;                      (ij_lc.row() - ij_begin_lc.row()) +</div>
-<div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160;                      (ij_lc.col() - ij_begin_lc.col()) * sz_loc_tiles.rows();</div>
-<div class="line"><a name="l00873"></a><span class="lineno">  873</span>&#160;                  const TileElementIndex ij_el_tl = dist.tileElementIndex(ij_el);</div>
-<div class="line"><a name="l00874"></a><span class="lineno">  874</span>&#160;                  evec_tiles[to_sizet(linear_subm_lc)](ij_el_tl) = T{1};</div>
-<div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160;                }</div>
-<div class="line"><a name="l00876"></a><span class="lineno">  876</span>&#160;              }</div>
-<div class="line"><a name="l00877"></a><span class="lineno">  877</span>&#160;            }</div>
-<div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;          }</div>
-<div class="line"><a name="l00879"></a><span class="lineno">  879</span>&#160;        }</div>
-<div class="line"><a name="l00880"></a><span class="lineno">  880</span>&#160; </div>
-<div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
-<div class="line"><a name="l00882"></a><span class="lineno">  882</span>&#160;        if (thread_idx == 0) {</div>
-<div class="line"><a name="l00883"></a><span class="lineno">  883</span>&#160;          <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00884"></a><span class="lineno">  884</span>&#160;          <span class="comment">// - nthreads are used for both LAED4 and weight calculation (one per worker thread)</span></div>
-<div class="line"><a name="l00885"></a><span class="lineno">  885</span>&#160;          <span class="comment">// - last one is used for reducing weights from all workers</span></div>
-<div class="line"><a name="l00886"></a><span class="lineno">  886</span>&#160;          ws_cols.reserve(nthreads + 1);</div>
-<div class="line"><a name="l00887"></a><span class="lineno">  887</span>&#160; </div>
-<div class="line"><a name="l00888"></a><span class="lineno">  888</span>&#160;          <span class="comment">// Note:</span></div>
-<div class="line"><a name="l00889"></a><span class="lineno">  889</span>&#160;          <span class="comment">// Considering that</span></div>
-<div class="line"><a name="l00890"></a><span class="lineno">  890</span>&#160;          <span class="comment">// - LAED4 requires working on k elements</span></div>
-<div class="line"><a name="l00891"></a><span class="lineno">  891</span>&#160;          <span class="comment">// - Weight computaiton requires working on m_subm_el_lc</span></div>
-<div class="line"><a name="l00892"></a><span class="lineno">  892</span>&#160;          <span class="comment">//</span></div>
-<div class="line"><a name="l00893"></a><span class="lineno">  893</span>&#160;          <span class="comment">// and they are needed at two steps that cannot happen in parallel, we opted for allocating the</span></div>
-<div class="line"><a name="l00894"></a><span class="lineno">  894</span>&#160;          <span class="comment">// workspace with the highest requirement of memory, and reuse them for both steps.</span></div>
-<div class="line"><a name="l00895"></a><span class="lineno">  895</span>&#160;          <span class="keyword">const</span> SizeType max_size = std::max(k, m_subm_el_lc);</div>
-<div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
-<div class="line"><a name="l00897"></a><span class="lineno">  897</span>&#160;            ws_cols.emplace_back(max_size);</div>
-<div class="line"><a name="l00898"></a><span class="lineno">  898</span>&#160;          ws_cols.emplace_back(m_subm_el_lc);</div>
-<div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160; </div>
-<div class="line"><a name="l00900"></a><span class="lineno">  900</span>&#160;          ws_row = memory::MemoryView&lt;T, Device::CPU&gt;(n_subm_el_lc);</div>
-<div class="line"><a name="l00901"></a><span class="lineno">  901</span>&#160;          std::fill_n(ws_row(), n_subm_el_lc, 0);</div>
+<div class="line"><a name="l00862"></a><span class="lineno">  862</span>&#160;        common::Pipeline&lt;comm::Communicator&gt; row_comm_chain(row_comm_wrapper.get());</div>
+<div class="line"><a name="l00863"></a><span class="lineno">  863</span>&#160;        const dlaf::comm::Communicator&amp; col_comm = col_comm_wrapper.get();</div>
+<div class="line"><a name="l00864"></a><span class="lineno">  864</span>&#160; </div>
+<div class="line"><a name="l00865"></a><span class="lineno">  865</span>&#160;        const auto barrier_busy_wait = getTridiagRank1BarrierBusyWait();</div>
+<div class="line"><a name="l00866"></a><span class="lineno">  866</span>&#160;        const std::size_t batch_size =</div>
+<div class="line"><a name="l00867"></a><span class="lineno">  867</span>&#160;            std::max&lt;std::size_t&gt;(2, util::ceilDiv(to_sizet(sz_loc_tiles.cols()), nthreads));</div>
+<div class="line"><a name="l00868"></a><span class="lineno">  868</span>&#160;        const SizeType begin = to_SizeType(thread_idx * batch_size);</div>
+<div class="line"><a name="l00869"></a><span class="lineno">  869</span>&#160;        const SizeType end = std::min(to_SizeType((thread_idx + 1) * batch_size), sz_loc_tiles.cols());</div>
+<div class="line"><a name="l00870"></a><span class="lineno">  870</span>&#160; </div>
+<div class="line"><a name="l00871"></a><span class="lineno">  871</span>&#160;        <span class="comment">// STEP 0a: Fill ones for deflated Eigenvectors. (single-thread)</span></div>
+<div class="line"><a name="l00872"></a><span class="lineno">  872</span>&#160;        <span class="comment">// Note: this step is completely independent from the rest, but it is small and it is going</span></div>
+<div class="line"><a name="l00873"></a><span class="lineno">  873</span>&#160;        <span class="comment">// to be dropped soon.</span></div>
+<div class="line"><a name="l00874"></a><span class="lineno">  874</span>&#160;        <span class="comment">// Note: use last threads that in principle should have less work to do</span></div>
+<div class="line"><a name="l00875"></a><span class="lineno">  875</span>&#160;        if (thread_idx == nthreads - 1) {</div>
+<div class="line"><a name="l00876"></a><span class="lineno">  876</span>&#160;          <span class="comment">// just if there are deflated eigenvectors</span></div>
+<div class="line"><a name="l00877"></a><span class="lineno">  877</span>&#160;          if (k &lt; n) {</div>
+<div class="line"><a name="l00878"></a><span class="lineno">  878</span>&#160;            const GlobalElementSize origin_el(i_begin * dist.blockSize().rows(),</div>
+<div class="line"><a name="l00879"></a><span class="lineno">  879</span>&#160;                                              i_begin * dist.blockSize().cols());</div>
+<div class="line"><a name="l00880"></a><span class="lineno">  880</span>&#160;            const SizeType* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l00881"></a><span class="lineno">  881</span>&#160; </div>
+<div class="line"><a name="l00882"></a><span class="lineno">  882</span>&#160;            for (SizeType i_subm_el = 0; i_subm_el &lt; n; ++i_subm_el) {</div>
+<div class="line"><a name="l00883"></a><span class="lineno">  883</span>&#160;              const SizeType j_subm_el = i2_perm[i_subm_el];</div>
+<div class="line"><a name="l00884"></a><span class="lineno">  884</span>&#160; </div>
+<div class="line"><a name="l00885"></a><span class="lineno">  885</span>&#160;              <span class="comment">// if it is a deflated vector</span></div>
+<div class="line"><a name="l00886"></a><span class="lineno">  886</span>&#160;              if (j_subm_el &gt;= k) {</div>
+<div class="line"><a name="l00887"></a><span class="lineno">  887</span>&#160;                const GlobalElementIndex ij_el(origin_el.rows() + i_subm_el,</div>
+<div class="line"><a name="l00888"></a><span class="lineno">  888</span>&#160;                                               origin_el.cols() + j_subm_el);</div>
+<div class="line"><a name="l00889"></a><span class="lineno">  889</span>&#160;                const GlobalTileIndex ij = dist.globalTileIndex(ij_el);</div>
+<div class="line"><a name="l00890"></a><span class="lineno">  890</span>&#160; </div>
+<div class="line"><a name="l00891"></a><span class="lineno">  891</span>&#160;                if (dist.rankIndex() == dist.rankGlobalTile(ij)) {</div>
+<div class="line"><a name="l00892"></a><span class="lineno">  892</span>&#160;                  const LocalTileIndex ij_lc = dist.localTileIndex(ij);</div>
+<div class="line"><a name="l00893"></a><span class="lineno">  893</span>&#160;                  const SizeType linear_subm_lc =</div>
+<div class="line"><a name="l00894"></a><span class="lineno">  894</span>&#160;                      (ij_lc.row() - ij_begin_lc.row()) +</div>
+<div class="line"><a name="l00895"></a><span class="lineno">  895</span>&#160;                      (ij_lc.col() - ij_begin_lc.col()) * sz_loc_tiles.rows();</div>
+<div class="line"><a name="l00896"></a><span class="lineno">  896</span>&#160;                  const TileElementIndex ij_el_tl = dist.tileElementIndex(ij_el);</div>
+<div class="line"><a name="l00897"></a><span class="lineno">  897</span>&#160;                  evec_tiles[to_sizet(linear_subm_lc)](ij_el_tl) = T{1};</div>
+<div class="line"><a name="l00898"></a><span class="lineno">  898</span>&#160;                }</div>
+<div class="line"><a name="l00899"></a><span class="lineno">  899</span>&#160;              }</div>
+<div class="line"><a name="l00900"></a><span class="lineno">  900</span>&#160;            }</div>
+<div class="line"><a name="l00901"></a><span class="lineno">  901</span>&#160;          }</div>
 <div class="line"><a name="l00902"></a><span class="lineno">  902</span>&#160;        }</div>
 <div class="line"><a name="l00903"></a><span class="lineno">  903</span>&#160; </div>
-<div class="line"><a name="l00904"></a><span class="lineno">  904</span>&#160;        <span class="comment">// Note: we have to wait that LAED4 workspaces are ready to be used</span></div>
-<div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00906"></a><span class="lineno">  906</span>&#160; </div>
-<div class="line"><a name="l00907"></a><span class="lineno">  907</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
-<div class="line"><a name="l00908"></a><span class="lineno">  908</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
-<div class="line"><a name="l00909"></a><span class="lineno">  909</span>&#160; </div>
-<div class="line"><a name="l00910"></a><span class="lineno">  910</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
-<div class="line"><a name="l00911"></a><span class="lineno">  911</span>&#160;        {</div>
-<div class="line"><a name="l00912"></a><span class="lineno">  912</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l00913"></a><span class="lineno">  913</span>&#160; </div>
-<div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
-<div class="line"><a name="l00915"></a><span class="lineno">  915</span>&#160;          T* delta_ptr = ws_cols[thread_idx]();</div>
-<div class="line"><a name="l00916"></a><span class="lineno">  916</span>&#160; </div>
-<div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l00918"></a><span class="lineno">  918</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l00919"></a><span class="lineno">  919</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
-<div class="line"><a name="l00921"></a><span class="lineno">  921</span>&#160; </div>
-<div class="line"><a name="l00922"></a><span class="lineno">  922</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l00924"></a><span class="lineno">  924</span>&#160;              <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l00925"></a><span class="lineno">  925</span>&#160; </div>
-<div class="line"><a name="l00926"></a><span class="lineno">  926</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l00927"></a><span class="lineno">  927</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l00928"></a><span class="lineno">  928</span>&#160;              <span class="keyword">const</span> SizeType j_el = n_subm_el + j_el_tl;</div>
+<div class="line"><a name="l00904"></a><span class="lineno">  904</span>&#160;        <span class="comment">// STEP 0b: Initialize workspaces (single-thread)</span></div>
+<div class="line"><a name="l00905"></a><span class="lineno">  905</span>&#160;        if (thread_idx == 0) {</div>
+<div class="line"><a name="l00906"></a><span class="lineno">  906</span>&#160;          <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00907"></a><span class="lineno">  907</span>&#160;          <span class="comment">// - nthreads are used for both LAED4 and weight calculation (one per worker thread)</span></div>
+<div class="line"><a name="l00908"></a><span class="lineno">  908</span>&#160;          <span class="comment">// - last one is used for reducing weights from all workers</span></div>
+<div class="line"><a name="l00909"></a><span class="lineno">  909</span>&#160;          ws_cols.reserve(nthreads + 1);</div>
+<div class="line"><a name="l00910"></a><span class="lineno">  910</span>&#160; </div>
+<div class="line"><a name="l00911"></a><span class="lineno">  911</span>&#160;          <span class="comment">// Note:</span></div>
+<div class="line"><a name="l00912"></a><span class="lineno">  912</span>&#160;          <span class="comment">// Considering that</span></div>
+<div class="line"><a name="l00913"></a><span class="lineno">  913</span>&#160;          <span class="comment">// - LAED4 requires working on k elements</span></div>
+<div class="line"><a name="l00914"></a><span class="lineno">  914</span>&#160;          <span class="comment">// - Weight computation requires working on m_subm_el_lc</span></div>
+<div class="line"><a name="l00915"></a><span class="lineno">  915</span>&#160;          <span class="comment">//</span></div>
+<div class="line"><a name="l00916"></a><span class="lineno">  916</span>&#160;          <span class="comment">// and they are needed at two steps that cannot happen in parallel, we opted for allocating the</span></div>
+<div class="line"><a name="l00917"></a><span class="lineno">  917</span>&#160;          <span class="comment">// workspace with the highest requirement of memory, and reuse them for both steps.</span></div>
+<div class="line"><a name="l00918"></a><span class="lineno">  918</span>&#160;          <span class="keyword">const</span> SizeType max_size = std::max(k, m_subm_el_lc);</div>
+<div class="line"><a name="l00919"></a><span class="lineno">  919</span>&#160;          <span class="keywordflow">for</span> (std::size_t i = 0; i &lt; nthreads; ++i)</div>
+<div class="line"><a name="l00920"></a><span class="lineno">  920</span>&#160;            ws_cols.emplace_back(max_size);</div>
+<div class="line"><a name="l00921"></a><span class="lineno">  921</span>&#160;          ws_cols.emplace_back(m_subm_el_lc);</div>
+<div class="line"><a name="l00922"></a><span class="lineno">  922</span>&#160; </div>
+<div class="line"><a name="l00923"></a><span class="lineno">  923</span>&#160;          ws_row = memory::MemoryView&lt;T, Device::CPU&gt;(n_subm_el_lc);</div>
+<div class="line"><a name="l00924"></a><span class="lineno">  924</span>&#160;          std::fill_n(ws_row(), n_subm_el_lc, 0);</div>
+<div class="line"><a name="l00925"></a><span class="lineno">  925</span>&#160;        }</div>
+<div class="line"><a name="l00926"></a><span class="lineno">  926</span>&#160; </div>
+<div class="line"><a name="l00927"></a><span class="lineno">  927</span>&#160;        <span class="comment">// Note: we have to wait that LAED4 workspaces are ready to be used</span></div>
+<div class="line"><a name="l00928"></a><span class="lineno">  928</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l00929"></a><span class="lineno">  929</span>&#160; </div>
-<div class="line"><a name="l00930"></a><span class="lineno">  930</span>&#160;              <span class="comment">// Solve the deflated rank-1 problem</span></div>
-<div class="line"><a name="l00931"></a><span class="lineno">  931</span>&#160;              T&amp; eigenval = eval_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_el)];</div>
-<div class="line"><a name="l00932"></a><span class="lineno">  932</span>&#160;              lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(j_el), d_ptr, z_ptr, delta_ptr, rho, &amp;eigenval);</div>
-<div class="line"><a name="l00933"></a><span class="lineno">  933</span>&#160; </div>
-<div class="line"><a name="l00934"></a><span class="lineno">  934</span>&#160;              <span class="comment">// copy the parts from delta stored on this rank</span></div>
-<div class="line"><a name="l00935"></a><span class="lineno">  935</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l00936"></a><span class="lineno">  936</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc) * sz_loc_tiles.rows();</div>
-<div class="line"><a name="l00937"></a><span class="lineno">  937</span>&#160;                <span class="keyword">auto</span>&amp; evec_tile = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
-<div class="line"><a name="l00938"></a><span class="lineno">  938</span>&#160; </div>
-<div class="line"><a name="l00939"></a><span class="lineno">  939</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l00940"></a><span class="lineno">  940</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l00941"></a><span class="lineno">  941</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l00942"></a><span class="lineno">  942</span>&#160; </div>
-<div class="line"><a name="l00943"></a><span class="lineno">  943</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
-<div class="line"><a name="l00944"></a><span class="lineno">  944</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
-<div class="line"><a name="l00945"></a><span class="lineno">  945</span>&#160; </div>
-<div class="line"><a name="l00946"></a><span class="lineno">  946</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l00948"></a><span class="lineno">  948</span>&#160;                  <span class="keyword">const</span> SizeType jj_subm_el = i2_perm({i_el_tl, 0});</div>
-<div class="line"><a name="l00949"></a><span class="lineno">  949</span>&#160;                  <span class="keywordflow">if</span> (jj_subm_el &lt; k)</div>
-<div class="line"><a name="l00950"></a><span class="lineno">  950</span>&#160;                    evec_tile({i_el_tl, j_el_tl}) = delta_ptr[jj_subm_el];</div>
-<div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;                }</div>
-<div class="line"><a name="l00952"></a><span class="lineno">  952</span>&#160;              }</div>
-<div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160;            }</div>
-<div class="line"><a name="l00954"></a><span class="lineno">  954</span>&#160;          }</div>
-<div class="line"><a name="l00955"></a><span class="lineno">  955</span>&#160;        }</div>
+<div class="line"><a name="l00930"></a><span class="lineno">  930</span>&#160;        <span class="keyword">const</span> T* d_ptr = d_tiles_futs[0].get().ptr();</div>
+<div class="line"><a name="l00931"></a><span class="lineno">  931</span>&#160;        <span class="keyword">const</span> T* z_ptr = z_tiles[0].ptr();</div>
+<div class="line"><a name="l00932"></a><span class="lineno">  932</span>&#160; </div>
+<div class="line"><a name="l00933"></a><span class="lineno">  933</span>&#160;        <span class="comment">// STEP 1: LAED4 (multi-thread)</span></div>
+<div class="line"><a name="l00934"></a><span class="lineno">  934</span>&#160;        {</div>
+<div class="line"><a name="l00935"></a><span class="lineno">  935</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l00936"></a><span class="lineno">  936</span>&#160; </div>
+<div class="line"><a name="l00937"></a><span class="lineno">  937</span>&#160;          T* eval_ptr = eval_tiles[0].ptr();</div>
+<div class="line"><a name="l00938"></a><span class="lineno">  938</span>&#160;          T* delta_ptr = ws_cols[thread_idx]();</div>
+<div class="line"><a name="l00939"></a><span class="lineno">  939</span>&#160; </div>
+<div class="line"><a name="l00940"></a><span class="lineno">  940</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l00941"></a><span class="lineno">  941</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l00942"></a><span class="lineno">  942</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l00943"></a><span class="lineno">  943</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l00944"></a><span class="lineno">  944</span>&#160; </div>
+<div class="line"><a name="l00945"></a><span class="lineno">  945</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l00946"></a><span class="lineno">  946</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l00947"></a><span class="lineno">  947</span>&#160;              <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l00948"></a><span class="lineno">  948</span>&#160; </div>
+<div class="line"><a name="l00949"></a><span class="lineno">  949</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l00950"></a><span class="lineno">  950</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l00951"></a><span class="lineno">  951</span>&#160;              <span class="keyword">const</span> SizeType j_el = n_subm_el + j_el_tl;</div>
+<div class="line"><a name="l00952"></a><span class="lineno">  952</span>&#160; </div>
+<div class="line"><a name="l00953"></a><span class="lineno">  953</span>&#160;              <span class="comment">// Solve the deflated rank-1 problem</span></div>
+<div class="line"><a name="l00954"></a><span class="lineno">  954</span>&#160;              T&amp; eigenval = eval_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_el)];</div>
+<div class="line"><a name="l00955"></a><span class="lineno">  955</span>&#160;              lapack::laed4(<a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(k), <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(j_el), d_ptr, z_ptr, delta_ptr, rho, &amp;eigenval);</div>
 <div class="line"><a name="l00956"></a><span class="lineno">  956</span>&#160; </div>
-<div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
-<div class="line"><a name="l00958"></a><span class="lineno">  958</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l00959"></a><span class="lineno">  959</span>&#160; </div>
-<div class="line"><a name="l00960"></a><span class="lineno">  960</span>&#160;        <span class="comment">// STEP 2: Broadcast evals</span></div>
+<div class="line"><a name="l00957"></a><span class="lineno">  957</span>&#160;              <span class="comment">// copy the parts from delta stored on this rank</span></div>
+<div class="line"><a name="l00958"></a><span class="lineno">  958</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l00959"></a><span class="lineno">  959</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc) * sz_loc_tiles.rows();</div>
+<div class="line"><a name="l00960"></a><span class="lineno">  960</span>&#160;                <span class="keyword">auto</span>&amp; evec_tile = evec_tiles[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
 <div class="line"><a name="l00961"></a><span class="lineno">  961</span>&#160; </div>
-<div class="line"><a name="l00962"></a><span class="lineno">  962</span>&#160;        <span class="comment">// Note: this ensures that evals broadcasting finishes before bulk releases resources</span></div>
-<div class="line"><a name="l00963"></a><span class="lineno">  963</span>&#160;        <span class="keyword">struct </span>sync_wait_on_exit_t {</div>
-<div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;          ex::unique_any_sender&lt;&gt; sender_;</div>
+<div class="line"><a name="l00962"></a><span class="lineno">  962</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l00963"></a><span class="lineno">  963</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l00964"></a><span class="lineno">  964</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
 <div class="line"><a name="l00965"></a><span class="lineno">  965</span>&#160; </div>
-<div class="line"><a name="l00966"></a><span class="lineno">  966</span>&#160;          ~sync_wait_on_exit_t() {</div>
-<div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160;            <span class="keywordflow">if</span> (sender_)</div>
-<div class="line"><a name="l00968"></a><span class="lineno">  968</span>&#160;              tt::sync_wait(std::move(sender_));</div>
-<div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160;          }</div>
-<div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;        } bcast_barrier;</div>
-<div class="line"><a name="l00971"></a><span class="lineno">  971</span>&#160; </div>
-<div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
-<div class="line"><a name="l00973"></a><span class="lineno">  973</span>&#160;          bcast_barrier.sender_ = bcast_evals(row_comm_chain, eval_tiles);</div>
-<div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160; </div>
-<div class="line"><a name="l00975"></a><span class="lineno">  975</span>&#160;        <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
-<div class="line"><a name="l00976"></a><span class="lineno">  976</span>&#160;        <span class="keywordflow">if</span> (k &lt;= 2)</div>
-<div class="line"><a name="l00977"></a><span class="lineno">  977</span>&#160;          <span class="keywordflow">return</span>;</div>
-<div class="line"><a name="l00978"></a><span class="lineno">  978</span>&#160; </div>
-<div class="line"><a name="l00979"></a><span class="lineno">  979</span>&#160;        <span class="comment">// STEP 2 Compute weights (multi-thread)</span></div>
-<div class="line"><a name="l00980"></a><span class="lineno">  980</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
-<div class="line"><a name="l00981"></a><span class="lineno">  981</span>&#160;        T* w = ws_cols[thread_idx]();</div>
+<div class="line"><a name="l00966"></a><span class="lineno">  966</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
+<div class="line"><a name="l00967"></a><span class="lineno">  967</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
+<div class="line"><a name="l00968"></a><span class="lineno">  968</span>&#160; </div>
+<div class="line"><a name="l00969"></a><span class="lineno">  969</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l00970"></a><span class="lineno">  970</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l00971"></a><span class="lineno">  971</span>&#160;                  <span class="keyword">const</span> SizeType jj_subm_el = i2_perm({i_el_tl, 0});</div>
+<div class="line"><a name="l00972"></a><span class="lineno">  972</span>&#160;                  <span class="keywordflow">if</span> (jj_subm_el &lt; k)</div>
+<div class="line"><a name="l00973"></a><span class="lineno">  973</span>&#160;                    evec_tile({i_el_tl, j_el_tl}) = delta_ptr[jj_subm_el];</div>
+<div class="line"><a name="l00974"></a><span class="lineno">  974</span>&#160;                }</div>
+<div class="line"><a name="l00975"></a><span class="lineno">  975</span>&#160;              }</div>
+<div class="line"><a name="l00976"></a><span class="lineno">  976</span>&#160;            }</div>
+<div class="line"><a name="l00977"></a><span class="lineno">  977</span>&#160;          }</div>
+<div class="line"><a name="l00978"></a><span class="lineno">  978</span>&#160;        }</div>
+<div class="line"><a name="l00979"></a><span class="lineno">  979</span>&#160; </div>
+<div class="line"><a name="l00980"></a><span class="lineno">  980</span>&#160;        <span class="comment">// Note: This barrier ensures that LAED4 finished, so from now on values are available</span></div>
+<div class="line"><a name="l00981"></a><span class="lineno">  981</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l00982"></a><span class="lineno">  982</span>&#160; </div>
-<div class="line"><a name="l00983"></a><span class="lineno">  983</span>&#160;        <span class="comment">// STEP 2a: copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
-<div class="line"><a name="l00984"></a><span class="lineno">  984</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l00985"></a><span class="lineno">  985</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l00986"></a><span class="lineno">  986</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l00987"></a><span class="lineno">  987</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l00988"></a><span class="lineno">  988</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l00989"></a><span class="lineno">  989</span>&#160;            <span class="keyword">const</span> SizeType m_subm_el_lc =</div>
-<div class="line"><a name="l00990"></a><span class="lineno">  990</span>&#160;                dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(ij_begin_lc.row(), i_lc);</div>
-<div class="line"><a name="l00991"></a><span class="lineno">  991</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2 = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
-<div class="line"><a name="l00992"></a><span class="lineno">  992</span>&#160; </div>
-<div class="line"><a name="l00993"></a><span class="lineno">  993</span>&#160;            <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - i_subm_el);</div>
-<div class="line"><a name="l00994"></a><span class="lineno">  994</span>&#160;            <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l00995"></a><span class="lineno">  995</span>&#160;              <span class="keyword">const</span> SizeType i_subm_el_lc = m_subm_el_lc + i_el_tl;</div>
-<div class="line"><a name="l00996"></a><span class="lineno">  996</span>&#160; </div>
-<div class="line"><a name="l00997"></a><span class="lineno">  997</span>&#160;              <span class="keyword">const</span> SizeType jj_subm_el = i2({i_el_tl, 0});</div>
-<div class="line"><a name="l00998"></a><span class="lineno">  998</span>&#160;              <span class="keyword">const</span> SizeType n_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(0, i_begin);</div>
-<div class="line"><a name="l00999"></a><span class="lineno">  999</span>&#160;              <span class="keyword">const</span> SizeType jj_el = n_el + jj_subm_el;</div>
-<div class="line"><a name="l01000"></a><span class="lineno"> 1000</span>&#160;              <span class="keyword">const</span> SizeType jj = dist.globalTileFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
+<div class="line"><a name="l00983"></a><span class="lineno">  983</span>&#160;        <span class="comment">// STEP 2: Broadcast evals</span></div>
+<div class="line"><a name="l00984"></a><span class="lineno">  984</span>&#160; </div>
+<div class="line"><a name="l00985"></a><span class="lineno">  985</span>&#160;        <span class="comment">// Note: this ensures that evals broadcasting finishes before bulk releases resources</span></div>
+<div class="line"><a name="l00986"></a><span class="lineno">  986</span>&#160;        <span class="keyword">struct </span>sync_wait_on_exit_t {</div>
+<div class="line"><a name="l00987"></a><span class="lineno">  987</span>&#160;          ex::unique_any_sender&lt;&gt; sender_;</div>
+<div class="line"><a name="l00988"></a><span class="lineno">  988</span>&#160; </div>
+<div class="line"><a name="l00989"></a><span class="lineno">  989</span>&#160;          ~sync_wait_on_exit_t() {</div>
+<div class="line"><a name="l00990"></a><span class="lineno">  990</span>&#160;            <span class="keywordflow">if</span> (sender_)</div>
+<div class="line"><a name="l00991"></a><span class="lineno">  991</span>&#160;              tt::sync_wait(std::move(sender_));</div>
+<div class="line"><a name="l00992"></a><span class="lineno">  992</span>&#160;          }</div>
+<div class="line"><a name="l00993"></a><span class="lineno">  993</span>&#160;        } bcast_barrier;</div>
+<div class="line"><a name="l00994"></a><span class="lineno">  994</span>&#160; </div>
+<div class="line"><a name="l00995"></a><span class="lineno">  995</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
+<div class="line"><a name="l00996"></a><span class="lineno">  996</span>&#160;          bcast_barrier.sender_ = bcast_evals(row_comm_chain, eval_tiles);</div>
+<div class="line"><a name="l00997"></a><span class="lineno">  997</span>&#160; </div>
+<div class="line"><a name="l00998"></a><span class="lineno">  998</span>&#160;        <span class="comment">// Note: laed4 handles k &lt;= 2 cases differently</span></div>
+<div class="line"><a name="l00999"></a><span class="lineno">  999</span>&#160;        <span class="keywordflow">if</span> (k &lt;= 2)</div>
+<div class="line"><a name="l01000"></a><span class="lineno"> 1000</span>&#160;          <span class="keywordflow">return</span>;</div>
 <div class="line"><a name="l01001"></a><span class="lineno"> 1001</span>&#160; </div>
-<div class="line"><a name="l01002"></a><span class="lineno"> 1002</span>&#160;              <span class="keywordflow">if</span> (dist.rankGlobalTile&lt;Coord::Col&gt;(jj) == dist.rankIndex().col()) {</div>
-<div class="line"><a name="l01003"></a><span class="lineno"> 1003</span>&#160;                <span class="keyword">const</span> SizeType jj_lc = dist.localTileFromGlobalTile&lt;Coord::Col&gt;(jj);</div>
-<div class="line"><a name="l01004"></a><span class="lineno"> 1004</span>&#160;                <span class="keyword">const</span> SizeType jj_subm_lc = jj_lc - ij_begin_lc.col();</div>
-<div class="line"><a name="l01005"></a><span class="lineno"> 1005</span>&#160;                <span class="keyword">const</span> SizeType jj_el_tl = dist.tileElementFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
-<div class="line"><a name="l01006"></a><span class="lineno"> 1006</span>&#160; </div>
-<div class="line"><a name="l01007"></a><span class="lineno"> 1007</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * jj_subm_lc;</div>
-<div class="line"><a name="l01008"></a><span class="lineno"> 1008</span>&#160; </div>
-<div class="line"><a name="l01009"></a><span class="lineno"> 1009</span>&#160;                w[i_subm_el_lc] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, jj_el_tl});</div>
-<div class="line"><a name="l01010"></a><span class="lineno"> 1010</span>&#160;              }</div>
-<div class="line"><a name="l01011"></a><span class="lineno"> 1011</span>&#160;              <span class="keywordflow">else</span> {</div>
-<div class="line"><a name="l01012"></a><span class="lineno"> 1012</span>&#160;                w[i_subm_el_lc] = T(1);</div>
-<div class="line"><a name="l01013"></a><span class="lineno"> 1013</span>&#160;              }</div>
-<div class="line"><a name="l01014"></a><span class="lineno"> 1014</span>&#160;            }</div>
-<div class="line"><a name="l01015"></a><span class="lineno"> 1015</span>&#160;          }</div>
-<div class="line"><a name="l01016"></a><span class="lineno"> 1016</span>&#160;        }</div>
-<div class="line"><a name="l01017"></a><span class="lineno"> 1017</span>&#160;        <span class="keywordflow">else</span> {  <span class="comment">// other workers</span></div>
-<div class="line"><a name="l01018"></a><span class="lineno"> 1018</span>&#160;          std::fill_n(w, m_subm_el_lc, T(1));</div>
-<div class="line"><a name="l01019"></a><span class="lineno"> 1019</span>&#160;        }</div>
-<div class="line"><a name="l01020"></a><span class="lineno"> 1020</span>&#160; </div>
-<div class="line"><a name="l01021"></a><span class="lineno"> 1021</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01022"></a><span class="lineno"> 1022</span>&#160; </div>
-<div class="line"><a name="l01023"></a><span class="lineno"> 1023</span>&#160;        <span class="comment">// STEP 2b: compute weights</span></div>
-<div class="line"><a name="l01024"></a><span class="lineno"> 1024</span>&#160;        <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01025"></a><span class="lineno"> 1025</span>&#160;          <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01026"></a><span class="lineno"> 1026</span>&#160;          <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01027"></a><span class="lineno"> 1027</span>&#160;          <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
-<div class="line"><a name="l01028"></a><span class="lineno"> 1028</span>&#160; </div>
-<div class="line"><a name="l01029"></a><span class="lineno"> 1029</span>&#160;          <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01030"></a><span class="lineno"> 1030</span>&#160;          <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01031"></a><span class="lineno"> 1031</span>&#160;            <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l01032"></a><span class="lineno"> 1032</span>&#160; </div>
-<div class="line"><a name="l01033"></a><span class="lineno"> 1033</span>&#160;          <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01034"></a><span class="lineno"> 1034</span>&#160;          <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01035"></a><span class="lineno"> 1035</span>&#160;            <span class="keyword">const</span> SizeType j_subm_el = n_subm_el + j_el_tl;</div>
-<div class="line"><a name="l01036"></a><span class="lineno"> 1036</span>&#160;            <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;              <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;              <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01039"></a><span class="lineno"> 1039</span>&#160;              <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160; </div>
-<div class="line"><a name="l01041"></a><span class="lineno"> 1041</span>&#160;              <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
-<div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160; </div>
-<div class="line"><a name="l01043"></a><span class="lineno"> 1043</span>&#160;              <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01044"></a><span class="lineno"> 1044</span>&#160;              <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l01045"></a><span class="lineno"> 1045</span>&#160;                <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
-<div class="line"><a name="l01046"></a><span class="lineno"> 1046</span>&#160; </div>
-<div class="line"><a name="l01047"></a><span class="lineno"> 1047</span>&#160;                <span class="comment">// deflated zone</span></div>
-<div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
-<div class="line"><a name="l01049"></a><span class="lineno"> 1049</span>&#160;                  <span class="keywordflow">continue</span>;</div>
-<div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160; </div>
-<div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160;                <span class="comment">// diagonal</span></div>
-<div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el == j_subm_el)</div>
-<div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;                  <span class="keywordflow">continue</span>;</div>
-<div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160; </div>
-<div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
-<div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;                <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
-<div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160; </div>
-<div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;                w[i_subm_el_lc] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, j_el_tl}) /</div>
-<div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;                                   (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_subm_el)]);</div>
-<div class="line"><a name="l01060"></a><span class="lineno"> 1060</span>&#160;              }</div>
-<div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160;            }</div>
-<div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;          }</div>
-<div class="line"><a name="l01063"></a><span class="lineno"> 1063</span>&#160;        }</div>
-<div class="line"><a name="l01064"></a><span class="lineno"> 1064</span>&#160; </div>
-<div class="line"><a name="l01065"></a><span class="lineno"> 1065</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01066"></a><span class="lineno"> 1066</span>&#160; </div>
-<div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;        <span class="comment">// STEP 2c: reduce, then finalize computation with sign and square root (single-thread)</span></div>
-<div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
-<div class="line"><a name="l01069"></a><span class="lineno"> 1069</span>&#160;          <span class="comment">// local reduction from all bulk workers</span></div>
-<div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i = 0; i &lt; m_subm_el_lc; ++i) {</div>
-<div class="line"><a name="l01071"></a><span class="lineno"> 1071</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
-<div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_cols[tidx]();</div>
-<div class="line"><a name="l01073"></a><span class="lineno"> 1073</span>&#160;              w[i] *= w_partial[i];</div>
-<div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160;            }</div>
-<div class="line"><a name="l01075"></a><span class="lineno"> 1075</span>&#160;          }</div>
-<div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160; </div>
-<div class="line"><a name="l01077"></a><span class="lineno"> 1077</span>&#160;          tt::sync_wait(ex::when_all(row_comm_chain(),</div>
-<div class="line"><a name="l01078"></a><span class="lineno"> 1078</span>&#160;                                     ex::just(MPI_PROD, common::make_data(w, m_subm_el_lc))) |</div>
-<div class="line"><a name="l01079"></a><span class="lineno"> 1079</span>&#160;                        transformMPI(all_reduce_in_place));</div>
+<div class="line"><a name="l01002"></a><span class="lineno"> 1002</span>&#160;        <span class="comment">// STEP 2 Compute weights (multi-thread)</span></div>
+<div class="line"><a name="l01003"></a><span class="lineno"> 1003</span>&#160;        <span class="keyword">auto</span>&amp; q = evec_tiles;</div>
+<div class="line"><a name="l01004"></a><span class="lineno"> 1004</span>&#160;        T* w = ws_cols[thread_idx]();</div>
+<div class="line"><a name="l01005"></a><span class="lineno"> 1005</span>&#160; </div>
+<div class="line"><a name="l01006"></a><span class="lineno"> 1006</span>&#160;        <span class="comment">// STEP 2a: copy diagonal from q -&gt; w (or just initialize with 1)</span></div>
+<div class="line"><a name="l01007"></a><span class="lineno"> 1007</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l01008"></a><span class="lineno"> 1008</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01009"></a><span class="lineno"> 1009</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01010"></a><span class="lineno"> 1010</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01011"></a><span class="lineno"> 1011</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01012"></a><span class="lineno"> 1012</span>&#160;            <span class="keyword">const</span> SizeType m_subm_el_lc =</div>
+<div class="line"><a name="l01013"></a><span class="lineno"> 1013</span>&#160;                dist.localElementDistanceFromLocalTile&lt;Coord::Row&gt;(ij_begin_lc.row(), i_lc);</div>
+<div class="line"><a name="l01014"></a><span class="lineno"> 1014</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2 = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
+<div class="line"><a name="l01015"></a><span class="lineno"> 1015</span>&#160; </div>
+<div class="line"><a name="l01016"></a><span class="lineno"> 1016</span>&#160;            <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - i_subm_el);</div>
+<div class="line"><a name="l01017"></a><span class="lineno"> 1017</span>&#160;            <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01018"></a><span class="lineno"> 1018</span>&#160;              <span class="keyword">const</span> SizeType i_subm_el_lc = m_subm_el_lc + i_el_tl;</div>
+<div class="line"><a name="l01019"></a><span class="lineno"> 1019</span>&#160; </div>
+<div class="line"><a name="l01020"></a><span class="lineno"> 1020</span>&#160;              <span class="keyword">const</span> SizeType jj_subm_el = i2({i_el_tl, 0});</div>
+<div class="line"><a name="l01021"></a><span class="lineno"> 1021</span>&#160;              <span class="keyword">const</span> SizeType n_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(0, i_begin);</div>
+<div class="line"><a name="l01022"></a><span class="lineno"> 1022</span>&#160;              <span class="keyword">const</span> SizeType jj_el = n_el + jj_subm_el;</div>
+<div class="line"><a name="l01023"></a><span class="lineno"> 1023</span>&#160;              <span class="keyword">const</span> SizeType jj = dist.globalTileFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
+<div class="line"><a name="l01024"></a><span class="lineno"> 1024</span>&#160; </div>
+<div class="line"><a name="l01025"></a><span class="lineno"> 1025</span>&#160;              <span class="keywordflow">if</span> (dist.rankGlobalTile&lt;Coord::Col&gt;(jj) == dist.rankIndex().col()) {</div>
+<div class="line"><a name="l01026"></a><span class="lineno"> 1026</span>&#160;                <span class="keyword">const</span> SizeType jj_lc = dist.localTileFromGlobalTile&lt;Coord::Col&gt;(jj);</div>
+<div class="line"><a name="l01027"></a><span class="lineno"> 1027</span>&#160;                <span class="keyword">const</span> SizeType jj_subm_lc = jj_lc - ij_begin_lc.col();</div>
+<div class="line"><a name="l01028"></a><span class="lineno"> 1028</span>&#160;                <span class="keyword">const</span> SizeType jj_el_tl = dist.tileElementFromGlobalElement&lt;Coord::Col&gt;(jj_el);</div>
+<div class="line"><a name="l01029"></a><span class="lineno"> 1029</span>&#160; </div>
+<div class="line"><a name="l01030"></a><span class="lineno"> 1030</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * jj_subm_lc;</div>
+<div class="line"><a name="l01031"></a><span class="lineno"> 1031</span>&#160; </div>
+<div class="line"><a name="l01032"></a><span class="lineno"> 1032</span>&#160;                w[i_subm_el_lc] = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, jj_el_tl});</div>
+<div class="line"><a name="l01033"></a><span class="lineno"> 1033</span>&#160;              }</div>
+<div class="line"><a name="l01034"></a><span class="lineno"> 1034</span>&#160;              <span class="keywordflow">else</span> {</div>
+<div class="line"><a name="l01035"></a><span class="lineno"> 1035</span>&#160;                w[i_subm_el_lc] = T(1);</div>
+<div class="line"><a name="l01036"></a><span class="lineno"> 1036</span>&#160;              }</div>
+<div class="line"><a name="l01037"></a><span class="lineno"> 1037</span>&#160;            }</div>
+<div class="line"><a name="l01038"></a><span class="lineno"> 1038</span>&#160;          }</div>
+<div class="line"><a name="l01039"></a><span class="lineno"> 1039</span>&#160;        }</div>
+<div class="line"><a name="l01040"></a><span class="lineno"> 1040</span>&#160;        <span class="keywordflow">else</span> {  <span class="comment">// other workers</span></div>
+<div class="line"><a name="l01041"></a><span class="lineno"> 1041</span>&#160;          std::fill_n(w, m_subm_el_lc, T(1));</div>
+<div class="line"><a name="l01042"></a><span class="lineno"> 1042</span>&#160;        }</div>
+<div class="line"><a name="l01043"></a><span class="lineno"> 1043</span>&#160; </div>
+<div class="line"><a name="l01044"></a><span class="lineno"> 1044</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01045"></a><span class="lineno"> 1045</span>&#160; </div>
+<div class="line"><a name="l01046"></a><span class="lineno"> 1046</span>&#160;        <span class="comment">// STEP 2b: compute weights</span></div>
+<div class="line"><a name="l01047"></a><span class="lineno"> 1047</span>&#160;        <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01048"></a><span class="lineno"> 1048</span>&#160;          <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01049"></a><span class="lineno"> 1049</span>&#160;          <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01050"></a><span class="lineno"> 1050</span>&#160;          <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01051"></a><span class="lineno"> 1051</span>&#160; </div>
+<div class="line"><a name="l01052"></a><span class="lineno"> 1052</span>&#160;          <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01053"></a><span class="lineno"> 1053</span>&#160;          <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01054"></a><span class="lineno"> 1054</span>&#160;            <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l01055"></a><span class="lineno"> 1055</span>&#160; </div>
+<div class="line"><a name="l01056"></a><span class="lineno"> 1056</span>&#160;          <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01057"></a><span class="lineno"> 1057</span>&#160;          <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01058"></a><span class="lineno"> 1058</span>&#160;            <span class="keyword">const</span> SizeType j_subm_el = n_subm_el + j_el_tl;</div>
+<div class="line"><a name="l01059"></a><span class="lineno"> 1059</span>&#160;            <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01060"></a><span class="lineno"> 1060</span>&#160;              <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01061"></a><span class="lineno"> 1061</span>&#160;              <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01062"></a><span class="lineno"> 1062</span>&#160;              <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01063"></a><span class="lineno"> 1063</span>&#160; </div>
+<div class="line"><a name="l01064"></a><span class="lineno"> 1064</span>&#160;              <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i - i_begin)].get();</div>
+<div class="line"><a name="l01065"></a><span class="lineno"> 1065</span>&#160; </div>
+<div class="line"><a name="l01066"></a><span class="lineno"> 1066</span>&#160;              <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01067"></a><span class="lineno"> 1067</span>&#160;              <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01068"></a><span class="lineno"> 1068</span>&#160;                <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
+<div class="line"><a name="l01069"></a><span class="lineno"> 1069</span>&#160; </div>
+<div class="line"><a name="l01070"></a><span class="lineno"> 1070</span>&#160;                <span class="comment">// deflated zone</span></div>
+<div class="line"><a name="l01071"></a><span class="lineno"> 1071</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
+<div class="line"><a name="l01072"></a><span class="lineno"> 1072</span>&#160;                  <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l01073"></a><span class="lineno"> 1073</span>&#160; </div>
+<div class="line"><a name="l01074"></a><span class="lineno"> 1074</span>&#160;                <span class="comment">// diagonal</span></div>
+<div class="line"><a name="l01075"></a><span class="lineno"> 1075</span>&#160;                <span class="keywordflow">if</span> (ii_subm_el == j_subm_el)</div>
+<div class="line"><a name="l01076"></a><span class="lineno"> 1076</span>&#160;                  <span class="keywordflow">continue</span>;</div>
+<div class="line"><a name="l01077"></a><span class="lineno"> 1077</span>&#160; </div>
+<div class="line"><a name="l01078"></a><span class="lineno"> 1078</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
+<div class="line"><a name="l01079"></a><span class="lineno"> 1079</span>&#160;                <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
 <div class="line"><a name="l01080"></a><span class="lineno"> 1080</span>&#160; </div>
-<div class="line"><a name="l01081"></a><span class="lineno"> 1081</span>&#160;          T* weights = ws_cols[nthreads]();</div>
-<div class="line"><a name="l01082"></a><span class="lineno"> 1082</span>&#160;          <span class="keywordflow">for</span> (<span class="keywordtype">int</span> i_subm_el_lc = 0; i_subm_el_lc &lt; m_subm_el_lc; ++i_subm_el_lc) {</div>
-<div class="line"><a name="l01083"></a><span class="lineno"> 1083</span>&#160;            <span class="keyword">const</span> SizeType i_subm_lc = i_subm_el_lc / dist.blockSize().rows();</div>
-<div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01085"></a><span class="lineno"> 1085</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01086"></a><span class="lineno"> 1086</span>&#160;            <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
-<div class="line"><a name="l01087"></a><span class="lineno"> 1087</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el =</div>
-<div class="line"><a name="l01088"></a><span class="lineno"> 1088</span>&#160;                i_subm * dist.blockSize().rows() + i_subm_el_lc % dist.blockSize().rows();</div>
+<div class="line"><a name="l01081"></a><span class="lineno"> 1081</span>&#160;                w[i_subm_el_lc] *= q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)]({i_el_tl, j_el_tl}) /</div>
+<div class="line"><a name="l01082"></a><span class="lineno"> 1082</span>&#160;                                   (d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)] - d_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(j_subm_el)]);</div>
+<div class="line"><a name="l01083"></a><span class="lineno"> 1083</span>&#160;              }</div>
+<div class="line"><a name="l01084"></a><span class="lineno"> 1084</span>&#160;            }</div>
+<div class="line"><a name="l01085"></a><span class="lineno"> 1085</span>&#160;          }</div>
+<div class="line"><a name="l01086"></a><span class="lineno"> 1086</span>&#160;        }</div>
+<div class="line"><a name="l01087"></a><span class="lineno"> 1087</span>&#160; </div>
+<div class="line"><a name="l01088"></a><span class="lineno"> 1088</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l01089"></a><span class="lineno"> 1089</span>&#160; </div>
-<div class="line"><a name="l01090"></a><span class="lineno"> 1090</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>* i2_perm = i2_tile_arr[0].get().ptr();</div>
-<div class="line"><a name="l01091"></a><span class="lineno"> 1091</span>&#160;            <span class="keyword">const</span> SizeType ii_subm_el = i2_perm[i_subm_el];</div>
-<div class="line"><a name="l01092"></a><span class="lineno"> 1092</span>&#160;            weights[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm_el_lc)] =</div>
-<div class="line"><a name="l01093"></a><span class="lineno"> 1093</span>&#160;                std::copysign(std::sqrt(-w[i_subm_el_lc]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)]);</div>
-<div class="line"><a name="l01094"></a><span class="lineno"> 1094</span>&#160;          }</div>
-<div class="line"><a name="l01095"></a><span class="lineno"> 1095</span>&#160;        }</div>
-<div class="line"><a name="l01096"></a><span class="lineno"> 1096</span>&#160; </div>
-<div class="line"><a name="l01097"></a><span class="lineno"> 1097</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01098"></a><span class="lineno"> 1098</span>&#160; </div>
-<div class="line"><a name="l01099"></a><span class="lineno"> 1099</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
-<div class="line"><a name="l01100"></a><span class="lineno"> 1100</span>&#160; </div>
-<div class="line"><a name="l01101"></a><span class="lineno"> 1101</span>&#160;        <span class="comment">// STEP 3a: Form evecs using weights vector and compute (local) sum of squares</span></div>
-<div class="line"><a name="l01102"></a><span class="lineno"> 1102</span>&#160;        {</div>
-<div class="line"><a name="l01103"></a><span class="lineno"> 1103</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l01104"></a><span class="lineno"> 1104</span>&#160; </div>
-<div class="line"><a name="l01105"></a><span class="lineno"> 1105</span>&#160;          <span class="keyword">const</span> T* w = ws_cols[nthreads]();</div>
-<div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;          T* sum_squares = ws_row();</div>
-<div class="line"><a name="l01107"></a><span class="lineno"> 1107</span>&#160; </div>
-<div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01090"></a><span class="lineno"> 1090</span>&#160;        <span class="comment">// STEP 2c: reduce, then finalize computation with sign and square root (single-thread)</span></div>
+<div class="line"><a name="l01091"></a><span class="lineno"> 1091</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0) {</div>
+<div class="line"><a name="l01092"></a><span class="lineno"> 1092</span>&#160;          <span class="comment">// local reduction from all bulk workers</span></div>
+<div class="line"><a name="l01093"></a><span class="lineno"> 1093</span>&#160;          <span class="keywordflow">for</span> (SizeType i = 0; i &lt; m_subm_el_lc; ++i) {</div>
+<div class="line"><a name="l01094"></a><span class="lineno"> 1094</span>&#160;            <span class="keywordflow">for</span> (std::size_t tidx = 1; tidx &lt; nthreads; ++tidx) {</div>
+<div class="line"><a name="l01095"></a><span class="lineno"> 1095</span>&#160;              <span class="keyword">const</span> T* w_partial = ws_cols[tidx]();</div>
+<div class="line"><a name="l01096"></a><span class="lineno"> 1096</span>&#160;              w[i] *= w_partial[i];</div>
+<div class="line"><a name="l01097"></a><span class="lineno"> 1097</span>&#160;            }</div>
+<div class="line"><a name="l01098"></a><span class="lineno"> 1098</span>&#160;          }</div>
+<div class="line"><a name="l01099"></a><span class="lineno"> 1099</span>&#160; </div>
+<div class="line"><a name="l01100"></a><span class="lineno"> 1100</span>&#160;          tt::sync_wait(ex::when_all(row_comm_chain(),</div>
+<div class="line"><a name="l01101"></a><span class="lineno"> 1101</span>&#160;                                     ex::just(MPI_PROD, common::make_data(w, m_subm_el_lc))) |</div>
+<div class="line"><a name="l01102"></a><span class="lineno"> 1102</span>&#160;                        transformMPI(all_reduce_in_place));</div>
+<div class="line"><a name="l01103"></a><span class="lineno"> 1103</span>&#160; </div>
+<div class="line"><a name="l01104"></a><span class="lineno"> 1104</span>&#160;          T* weights = ws_cols[nthreads]();</div>
+<div class="line"><a name="l01105"></a><span class="lineno"> 1105</span>&#160;          <span class="keywordflow">for</span> (SizeType i_subm_el_lc = 0; i_subm_el_lc &lt; m_subm_el_lc; ++i_subm_el_lc) {</div>
+<div class="line"><a name="l01106"></a><span class="lineno"> 1106</span>&#160;            <span class="keyword">const</span> SizeType i_subm_lc = i_subm_el_lc / dist.blockSize().rows();</div>
+<div class="line"><a name="l01107"></a><span class="lineno"> 1107</span>&#160;            <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01108"></a><span class="lineno"> 1108</span>&#160;            <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01109"></a><span class="lineno"> 1109</span>&#160;            <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
+<div class="line"><a name="l01110"></a><span class="lineno"> 1110</span>&#160;            <span class="keyword">const</span> SizeType i_subm_el =</div>
+<div class="line"><a name="l01111"></a><span class="lineno"> 1111</span>&#160;                i_subm * dist.blockSize().rows() + i_subm_el_lc % dist.blockSize().rows();</div>
 <div class="line"><a name="l01112"></a><span class="lineno"> 1112</span>&#160; </div>
-<div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01115"></a><span class="lineno"> 1115</span>&#160;              <span class="keywordflow">break</span>;</div>
-<div class="line"><a name="l01116"></a><span class="lineno"> 1116</span>&#160; </div>
-<div class="line"><a name="l01117"></a><span class="lineno"> 1117</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01118"></a><span class="lineno"> 1118</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01119"></a><span class="lineno"> 1119</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
-<div class="line"><a name="l01120"></a><span class="lineno"> 1120</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01121"></a><span class="lineno"> 1121</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01122"></a><span class="lineno"> 1122</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01123"></a><span class="lineno"> 1123</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01124"></a><span class="lineno"> 1124</span>&#160; </div>
-<div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
-<div class="line"><a name="l01126"></a><span class="lineno"> 1126</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
+<div class="line"><a name="l01113"></a><span class="lineno"> 1113</span>&#160;            <span class="keyword">const</span> <span class="keyword">auto</span>* i2_perm = i2_tile_arr[0].get().ptr();</div>
+<div class="line"><a name="l01114"></a><span class="lineno"> 1114</span>&#160;            <span class="keyword">const</span> SizeType ii_subm_el = i2_perm[i_subm_el];</div>
+<div class="line"><a name="l01115"></a><span class="lineno"> 1115</span>&#160;            weights[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm_el_lc)] =</div>
+<div class="line"><a name="l01116"></a><span class="lineno"> 1116</span>&#160;                std::copysign(std::sqrt(-w[i_subm_el_lc]), z_ptr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(ii_subm_el)]);</div>
+<div class="line"><a name="l01117"></a><span class="lineno"> 1117</span>&#160;          }</div>
+<div class="line"><a name="l01118"></a><span class="lineno"> 1118</span>&#160;        }</div>
+<div class="line"><a name="l01119"></a><span class="lineno"> 1119</span>&#160; </div>
+<div class="line"><a name="l01120"></a><span class="lineno"> 1120</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01121"></a><span class="lineno"> 1121</span>&#160; </div>
+<div class="line"><a name="l01122"></a><span class="lineno"> 1122</span>&#160;        <span class="comment">// STEP 3: Compute eigenvectors of the modified rank-1 modification (normalize) (multi-thread)</span></div>
+<div class="line"><a name="l01123"></a><span class="lineno"> 1123</span>&#160; </div>
+<div class="line"><a name="l01124"></a><span class="lineno"> 1124</span>&#160;        <span class="comment">// STEP 3a: Form evecs using weights vector and compute (local) sum of squares</span></div>
+<div class="line"><a name="l01125"></a><span class="lineno"> 1125</span>&#160;        {</div>
+<div class="line"><a name="l01126"></a><span class="lineno"> 1126</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
 <div class="line"><a name="l01127"></a><span class="lineno"> 1127</span>&#160; </div>
-<div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
-<div class="line"><a name="l01129"></a><span class="lineno"> 1129</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; q_tile = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
+<div class="line"><a name="l01128"></a><span class="lineno"> 1128</span>&#160;          <span class="keyword">const</span> T* w = ws_cols[nthreads]();</div>
+<div class="line"><a name="l01129"></a><span class="lineno"> 1129</span>&#160;          T* sum_squares = ws_row();</div>
 <div class="line"><a name="l01130"></a><span class="lineno"> 1130</span>&#160; </div>
-<div class="line"><a name="l01131"></a><span class="lineno"> 1131</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01132"></a><span class="lineno"> 1132</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
-<div class="line"><a name="l01133"></a><span class="lineno"> 1133</span>&#160;                  <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
-<div class="line"><a name="l01134"></a><span class="lineno"> 1134</span>&#160; </div>
-<div class="line"><a name="l01135"></a><span class="lineno"> 1135</span>&#160;                  <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
-<div class="line"><a name="l01136"></a><span class="lineno"> 1136</span>&#160;                  <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
-<div class="line"><a name="l01137"></a><span class="lineno"> 1137</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = 0;</div>
-<div class="line"><a name="l01138"></a><span class="lineno"> 1138</span>&#160;                  <span class="keywordflow">else</span></div>
-<div class="line"><a name="l01139"></a><span class="lineno"> 1139</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = w[i_subm_el_lc] / q_tile({i_el_tl, j_el_tl});</div>
-<div class="line"><a name="l01140"></a><span class="lineno"> 1140</span>&#160;                }</div>
-<div class="line"><a name="l01141"></a><span class="lineno"> 1141</span>&#160; </div>
-<div class="line"><a name="l01142"></a><span class="lineno"> 1142</span>&#160;                sum_squares[j_subm_el_lc] +=</div>
-<div class="line"><a name="l01143"></a><span class="lineno"> 1143</span>&#160;                    blas::dot(m_el_tl, q_tile.ptr({0, j_el_tl}), 1, q_tile.ptr({0, j_el_tl}), 1);</div>
-<div class="line"><a name="l01144"></a><span class="lineno"> 1144</span>&#160;              }</div>
-<div class="line"><a name="l01145"></a><span class="lineno"> 1145</span>&#160;            }</div>
-<div class="line"><a name="l01146"></a><span class="lineno"> 1146</span>&#160;          }</div>
-<div class="line"><a name="l01147"></a><span class="lineno"> 1147</span>&#160;        }</div>
-<div class="line"><a name="l01148"></a><span class="lineno"> 1148</span>&#160; </div>
-<div class="line"><a name="l01149"></a><span class="lineno"> 1149</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01131"></a><span class="lineno"> 1131</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01132"></a><span class="lineno"> 1132</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01133"></a><span class="lineno"> 1133</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01134"></a><span class="lineno"> 1134</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01135"></a><span class="lineno"> 1135</span>&#160; </div>
+<div class="line"><a name="l01136"></a><span class="lineno"> 1136</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01137"></a><span class="lineno"> 1137</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01138"></a><span class="lineno"> 1138</span>&#160;              <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l01139"></a><span class="lineno"> 1139</span>&#160; </div>
+<div class="line"><a name="l01140"></a><span class="lineno"> 1140</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01141"></a><span class="lineno"> 1141</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01142"></a><span class="lineno"> 1142</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
+<div class="line"><a name="l01143"></a><span class="lineno"> 1143</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01144"></a><span class="lineno"> 1144</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01145"></a><span class="lineno"> 1145</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01146"></a><span class="lineno"> 1146</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01147"></a><span class="lineno"> 1147</span>&#160; </div>
+<div class="line"><a name="l01148"></a><span class="lineno"> 1148</span>&#160;                <span class="keyword">const</span> SizeType i_subm = i - i_begin;</div>
+<div class="line"><a name="l01149"></a><span class="lineno"> 1149</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; i2_perm = i2_tile_arr[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(i_subm)].get();</div>
 <div class="line"><a name="l01150"></a><span class="lineno"> 1150</span>&#160; </div>
-<div class="line"><a name="l01151"></a><span class="lineno"> 1151</span>&#160;        <span class="comment">// STEP 3b: Reduce to get the sum of all squares on all ranks</span></div>
-<div class="line"><a name="l01152"></a><span class="lineno"> 1152</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
-<div class="line"><a name="l01153"></a><span class="lineno"> 1153</span>&#160;          tt::sync_wait(ex::just(std::cref(col_comm), MPI_SUM,</div>
-<div class="line"><a name="l01154"></a><span class="lineno"> 1154</span>&#160;                                 common::make_data(ws_row(), n_subm_el_lc)) |</div>
-<div class="line"><a name="l01155"></a><span class="lineno"> 1155</span>&#160;                        transformMPI(all_reduce_in_place));</div>
-<div class="line"><a name="l01156"></a><span class="lineno"> 1156</span>&#160; </div>
-<div class="line"><a name="l01157"></a><span class="lineno"> 1157</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
-<div class="line"><a name="l01158"></a><span class="lineno"> 1158</span>&#160; </div>
-<div class="line"><a name="l01159"></a><span class="lineno"> 1159</span>&#160;        <span class="comment">// STEP 3c: Normalize (compute norm of each column and scale column vector)</span></div>
-<div class="line"><a name="l01160"></a><span class="lineno"> 1160</span>&#160;        {</div>
-<div class="line"><a name="l01161"></a><span class="lineno"> 1161</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
-<div class="line"><a name="l01162"></a><span class="lineno"> 1162</span>&#160; </div>
-<div class="line"><a name="l01163"></a><span class="lineno"> 1163</span>&#160;          <span class="keyword">const</span> T* sum_squares = ws_row();</div>
+<div class="line"><a name="l01151"></a><span class="lineno"> 1151</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
+<div class="line"><a name="l01152"></a><span class="lineno"> 1152</span>&#160;                <span class="keyword">const</span> <span class="keyword">auto</span>&amp; q_tile = q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)];</div>
+<div class="line"><a name="l01153"></a><span class="lineno"> 1153</span>&#160; </div>
+<div class="line"><a name="l01154"></a><span class="lineno"> 1154</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01155"></a><span class="lineno"> 1155</span>&#160;                <span class="keywordflow">for</span> (SizeType i_el_tl = 0; i_el_tl &lt; m_el_tl; ++i_el_tl) {</div>
+<div class="line"><a name="l01156"></a><span class="lineno"> 1156</span>&#160;                  <span class="keyword">const</span> SizeType ii_subm_el = i2_perm({i_el_tl, 0});</div>
+<div class="line"><a name="l01157"></a><span class="lineno"> 1157</span>&#160; </div>
+<div class="line"><a name="l01158"></a><span class="lineno"> 1158</span>&#160;                  <span class="keyword">const</span> SizeType i_subm_el_lc = i_subm_lc * dist.blockSize().rows() + i_el_tl;</div>
+<div class="line"><a name="l01159"></a><span class="lineno"> 1159</span>&#160;                  <span class="keywordflow">if</span> (ii_subm_el &gt;= k)</div>
+<div class="line"><a name="l01160"></a><span class="lineno"> 1160</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = 0;</div>
+<div class="line"><a name="l01161"></a><span class="lineno"> 1161</span>&#160;                  <span class="keywordflow">else</span></div>
+<div class="line"><a name="l01162"></a><span class="lineno"> 1162</span>&#160;                    q_tile({i_el_tl, j_el_tl}) = w[i_subm_el_lc] / q_tile({i_el_tl, j_el_tl});</div>
+<div class="line"><a name="l01163"></a><span class="lineno"> 1163</span>&#160;                }</div>
 <div class="line"><a name="l01164"></a><span class="lineno"> 1164</span>&#160; </div>
-<div class="line"><a name="l01165"></a><span class="lineno"> 1165</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
-<div class="line"><a name="l01166"></a><span class="lineno"> 1166</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
-<div class="line"><a name="l01167"></a><span class="lineno"> 1167</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
-<div class="line"><a name="l01168"></a><span class="lineno"> 1168</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
-<div class="line"><a name="l01169"></a><span class="lineno"> 1169</span>&#160; </div>
-<div class="line"><a name="l01170"></a><span class="lineno"> 1170</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
-<div class="line"><a name="l01171"></a><span class="lineno"> 1171</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
-<div class="line"><a name="l01172"></a><span class="lineno"> 1172</span>&#160;              <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l01165"></a><span class="lineno"> 1165</span>&#160;                sum_squares[j_subm_el_lc] +=</div>
+<div class="line"><a name="l01166"></a><span class="lineno"> 1166</span>&#160;                    blas::dot(m_el_tl, q_tile.ptr({0, j_el_tl}), 1, q_tile.ptr({0, j_el_tl}), 1);</div>
+<div class="line"><a name="l01167"></a><span class="lineno"> 1167</span>&#160;              }</div>
+<div class="line"><a name="l01168"></a><span class="lineno"> 1168</span>&#160;            }</div>
+<div class="line"><a name="l01169"></a><span class="lineno"> 1169</span>&#160;          }</div>
+<div class="line"><a name="l01170"></a><span class="lineno"> 1170</span>&#160;        }</div>
+<div class="line"><a name="l01171"></a><span class="lineno"> 1171</span>&#160; </div>
+<div class="line"><a name="l01172"></a><span class="lineno"> 1172</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
 <div class="line"><a name="l01173"></a><span class="lineno"> 1173</span>&#160; </div>
-<div class="line"><a name="l01174"></a><span class="lineno"> 1174</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
-<div class="line"><a name="l01175"></a><span class="lineno"> 1175</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
-<div class="line"><a name="l01176"></a><span class="lineno"> 1176</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
-<div class="line"><a name="l01177"></a><span class="lineno"> 1177</span>&#160;              <span class="keyword">const</span> T vec_norm = std::sqrt(sum_squares[j_subm_el_lc]);</div>
-<div class="line"><a name="l01178"></a><span class="lineno"> 1178</span>&#160; </div>
-<div class="line"><a name="l01179"></a><span class="lineno"> 1179</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
-<div class="line"><a name="l01180"></a><span class="lineno"> 1180</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
-<div class="line"><a name="l01181"></a><span class="lineno"> 1181</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
-<div class="line"><a name="l01182"></a><span class="lineno"> 1182</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
-<div class="line"><a name="l01183"></a><span class="lineno"> 1183</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
-<div class="line"><a name="l01184"></a><span class="lineno"> 1184</span>&#160; </div>
-<div class="line"><a name="l01185"></a><span class="lineno"> 1185</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
-<div class="line"><a name="l01186"></a><span class="lineno"> 1186</span>&#160;                blas::scal(m_el_tl, 1 / vec_norm, q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)].ptr({0, j_el_tl}), 1);</div>
-<div class="line"><a name="l01187"></a><span class="lineno"> 1187</span>&#160;              }</div>
-<div class="line"><a name="l01188"></a><span class="lineno"> 1188</span>&#160;            }</div>
-<div class="line"><a name="l01189"></a><span class="lineno"> 1189</span>&#160;          }</div>
-<div class="line"><a name="l01190"></a><span class="lineno"> 1190</span>&#160;        }</div>
-<div class="line"><a name="l01191"></a><span class="lineno"> 1191</span>&#160;      }));</div>
-<div class="line"><a name="l01192"></a><span class="lineno"> 1192</span>&#160;}</div>
-<div class="line"><a name="l01193"></a><span class="lineno"> 1193</span>&#160; </div>
-<div class="line"><a name="l01194"></a><span class="lineno"> 1194</span>&#160;<span class="comment">// Distributed version of the tridiagonal solver on CPUs</span></div>
-<div class="line"><a name="l01195"></a><span class="lineno"> 1195</span>&#160;<span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
-<div class="line"><a name="l01196"></a><span class="lineno"> 1196</span>&#160;<span class="keywordtype">void</span> mergeDistSubproblems(comm::CommunicatorGrid grid,</div>
-<div class="line"><a name="l01197"></a><span class="lineno"> 1197</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
-<div class="line"><a name="l01198"></a><span class="lineno"> 1198</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; row_task_chain,</div>
-<div class="line"><a name="l01199"></a><span class="lineno"> 1199</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; col_task_chain, <span class="keyword">const</span> SizeType i_begin,</div>
-<div class="line"><a name="l01200"></a><span class="lineno"> 1200</span>&#160;                          <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end, RhoSender&amp;&amp; rho,</div>
-<div class="line"><a name="l01201"></a><span class="lineno"> 1201</span>&#160;                          WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
-<div class="line"><a name="l01202"></a><span class="lineno"> 1202</span>&#160;                          DistWorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
-<div class="line"><a name="l01203"></a><span class="lineno"> 1203</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
-<div class="line"><a name="l01204"></a><span class="lineno"> 1204</span>&#160; </div>
-<div class="line"><a name="l01205"></a><span class="lineno"> 1205</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist_evecs = ws.e0.distribution();</div>
-<div class="line"><a name="l01206"></a><span class="lineno"> 1206</span>&#160; </div>
-<div class="line"><a name="l01207"></a><span class="lineno"> 1207</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
-<div class="line"><a name="l01208"></a><span class="lineno"> 1208</span>&#160;  <span class="keyword">const</span> SizeType n1 = dist_evecs.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i_split);</div>
-<div class="line"><a name="l01209"></a><span class="lineno"> 1209</span>&#160; </div>
-<div class="line"><a name="l01210"></a><span class="lineno"> 1210</span>&#160;  <span class="comment">// The local size of the subproblem</span></div>
-<div class="line"><a name="l01211"></a><span class="lineno"> 1211</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
-<div class="line"><a name="l01212"></a><span class="lineno"> 1212</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_begin),</div>
-<div class="line"><a name="l01213"></a><span class="lineno"> 1213</span>&#160;                                     dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_begin)};</div>
-<div class="line"><a name="l01214"></a><span class="lineno"> 1214</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_end{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_end),</div>
-<div class="line"><a name="l01215"></a><span class="lineno"> 1215</span>&#160;                                   dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_end)};</div>
-<div class="line"><a name="l01216"></a><span class="lineno"> 1216</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles = idx_loc_end - idx_loc_begin;</div>
-<div class="line"><a name="l01217"></a><span class="lineno"> 1217</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
-<div class="line"><a name="l01218"></a><span class="lineno"> 1218</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(i_end - i_begin, 1);</div>
-<div class="line"><a name="l01219"></a><span class="lineno"> 1219</span>&#160; </div>
-<div class="line"><a name="l01220"></a><span class="lineno"> 1220</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
-<div class="line"><a name="l01221"></a><span class="lineno"> 1221</span>&#160;  assembleDistZVec(grid, full_task_chain, i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
-<div class="line"><a name="l01222"></a><span class="lineno"> 1222</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
-<div class="line"><a name="l01223"></a><span class="lineno"> 1223</span>&#160; </div>
-<div class="line"><a name="l01224"></a><span class="lineno"> 1224</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
-<div class="line"><a name="l01225"></a><span class="lineno"> 1225</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
-<div class="line"><a name="l01226"></a><span class="lineno"> 1226</span>&#160; </div>
-<div class="line"><a name="l01227"></a><span class="lineno"> 1227</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
-<div class="line"><a name="l01228"></a><span class="lineno"> 1228</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
+<div class="line"><a name="l01174"></a><span class="lineno"> 1174</span>&#160;        <span class="comment">// STEP 3b: Reduce to get the sum of all squares on all ranks</span></div>
+<div class="line"><a name="l01175"></a><span class="lineno"> 1175</span>&#160;        <span class="keywordflow">if</span> (thread_idx == 0)</div>
+<div class="line"><a name="l01176"></a><span class="lineno"> 1176</span>&#160;          tt::sync_wait(ex::just(std::cref(col_comm), MPI_SUM,</div>
+<div class="line"><a name="l01177"></a><span class="lineno"> 1177</span>&#160;                                 common::make_data(ws_row(), n_subm_el_lc)) |</div>
+<div class="line"><a name="l01178"></a><span class="lineno"> 1178</span>&#160;                        transformMPI(all_reduce_in_place));</div>
+<div class="line"><a name="l01179"></a><span class="lineno"> 1179</span>&#160; </div>
+<div class="line"><a name="l01180"></a><span class="lineno"> 1180</span>&#160;        barrier_ptr-&gt;arrive_and_wait(barrier_busy_wait);</div>
+<div class="line"><a name="l01181"></a><span class="lineno"> 1181</span>&#160; </div>
+<div class="line"><a name="l01182"></a><span class="lineno"> 1182</span>&#160;        <span class="comment">// STEP 3c: Normalize (compute norm of each column and scale column vector)</span></div>
+<div class="line"><a name="l01183"></a><span class="lineno"> 1183</span>&#160;        {</div>
+<div class="line"><a name="l01184"></a><span class="lineno"> 1184</span>&#160;          common::internal::SingleThreadedBlasScope single;</div>
+<div class="line"><a name="l01185"></a><span class="lineno"> 1185</span>&#160; </div>
+<div class="line"><a name="l01186"></a><span class="lineno"> 1186</span>&#160;          <span class="keyword">const</span> T* sum_squares = ws_row();</div>
+<div class="line"><a name="l01187"></a><span class="lineno"> 1187</span>&#160; </div>
+<div class="line"><a name="l01188"></a><span class="lineno"> 1188</span>&#160;          <span class="keywordflow">for</span> (SizeType j_subm_lc = begin; j_subm_lc &lt; end; ++j_subm_lc) {</div>
+<div class="line"><a name="l01189"></a><span class="lineno"> 1189</span>&#160;            <span class="keyword">const</span> SizeType j_lc = ij_begin_lc.col() + <a class="code" href="types_8h.html#ab1f0edc8e1281293c9c1325cb9d4bec9">to_SizeType</a>(j_subm_lc);</div>
+<div class="line"><a name="l01190"></a><span class="lineno"> 1190</span>&#160;            <span class="keyword">const</span> SizeType j = dist.globalTileFromLocalTile&lt;Coord::Col&gt;(j_lc);</div>
+<div class="line"><a name="l01191"></a><span class="lineno"> 1191</span>&#160;            <span class="keyword">const</span> SizeType n_subm_el = dist.globalTileElementDistance&lt;Coord::Col&gt;(i_begin, j);</div>
+<div class="line"><a name="l01192"></a><span class="lineno"> 1192</span>&#160; </div>
+<div class="line"><a name="l01193"></a><span class="lineno"> 1193</span>&#160;            <span class="comment">// Skip columns that are in the deflation zone</span></div>
+<div class="line"><a name="l01194"></a><span class="lineno"> 1194</span>&#160;            <span class="keywordflow">if</span> (n_subm_el &gt;= k)</div>
+<div class="line"><a name="l01195"></a><span class="lineno"> 1195</span>&#160;              <span class="keywordflow">break</span>;</div>
+<div class="line"><a name="l01196"></a><span class="lineno"> 1196</span>&#160; </div>
+<div class="line"><a name="l01197"></a><span class="lineno"> 1197</span>&#160;            <span class="keyword">const</span> SizeType n_el_tl = std::min(dist.tileSize&lt;Coord::Col&gt;(j), k - n_subm_el);</div>
+<div class="line"><a name="l01198"></a><span class="lineno"> 1198</span>&#160;            <span class="keywordflow">for</span> (SizeType j_el_tl = 0; j_el_tl &lt; n_el_tl; ++j_el_tl) {</div>
+<div class="line"><a name="l01199"></a><span class="lineno"> 1199</span>&#160;              <span class="keyword">const</span> SizeType j_subm_el_lc = j_subm_lc * dist.blockSize().cols() + j_el_tl;</div>
+<div class="line"><a name="l01200"></a><span class="lineno"> 1200</span>&#160;              <span class="keyword">const</span> T vec_norm = std::sqrt(sum_squares[j_subm_el_lc]);</div>
+<div class="line"><a name="l01201"></a><span class="lineno"> 1201</span>&#160; </div>
+<div class="line"><a name="l01202"></a><span class="lineno"> 1202</span>&#160;              <span class="keywordflow">for</span> (SizeType i_subm_lc = 0; i_subm_lc &lt; sz_loc_tiles.rows(); ++i_subm_lc) {</div>
+<div class="line"><a name="l01203"></a><span class="lineno"> 1203</span>&#160;                <span class="keyword">const</span> SizeType linear_subm_lc = i_subm_lc + sz_loc_tiles.rows() * j_subm_lc;</div>
+<div class="line"><a name="l01204"></a><span class="lineno"> 1204</span>&#160;                <span class="keyword">const</span> SizeType i_lc = ij_begin_lc.row() + i_subm_lc;</div>
+<div class="line"><a name="l01205"></a><span class="lineno"> 1205</span>&#160;                <span class="keyword">const</span> SizeType i = dist.globalTileFromLocalTile&lt;Coord::Row&gt;(i_lc);</div>
+<div class="line"><a name="l01206"></a><span class="lineno"> 1206</span>&#160;                <span class="keyword">const</span> SizeType m_subm_el = dist.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i);</div>
+<div class="line"><a name="l01207"></a><span class="lineno"> 1207</span>&#160; </div>
+<div class="line"><a name="l01208"></a><span class="lineno"> 1208</span>&#160;                <span class="keyword">const</span> SizeType m_el_tl = std::min(dist.tileSize&lt;Coord::Row&gt;(i), n - m_subm_el);</div>
+<div class="line"><a name="l01209"></a><span class="lineno"> 1209</span>&#160;                blas::scal(m_el_tl, 1 / vec_norm, q[<a class="code" href="types_8h.html#a25d16ff6621f011d9a98be3d9ebf29f1">to_sizet</a>(linear_subm_lc)].ptr({0, j_el_tl}), 1);</div>
+<div class="line"><a name="l01210"></a><span class="lineno"> 1210</span>&#160;              }</div>
+<div class="line"><a name="l01211"></a><span class="lineno"> 1211</span>&#160;            }</div>
+<div class="line"><a name="l01212"></a><span class="lineno"> 1212</span>&#160;          }</div>
+<div class="line"><a name="l01213"></a><span class="lineno"> 1213</span>&#160;        }</div>
+<div class="line"><a name="l01214"></a><span class="lineno"> 1214</span>&#160;      }));</div>
+<div class="line"><a name="l01215"></a><span class="lineno"> 1215</span>&#160;}</div>
+<div class="line"><a name="l01216"></a><span class="lineno"> 1216</span>&#160; </div>
+<div class="line"><a name="l01217"></a><span class="lineno"> 1217</span>&#160;<span class="comment">// Distributed version of the tridiagonal solver on CPUs</span></div>
+<div class="line"><a name="l01218"></a><span class="lineno"> 1218</span>&#160;<span class="keyword">template</span> &lt;Backend B, <span class="keyword">class</span> T, Device D, <span class="keyword">class</span> RhoSender&gt;</div>
+<div class="line"><a name="l01219"></a><span class="lineno"> 1219</span>&#160;<span class="keywordtype">void</span> mergeDistSubproblems(comm::CommunicatorGrid grid,</div>
+<div class="line"><a name="l01220"></a><span class="lineno"> 1220</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; full_task_chain,</div>
+<div class="line"><a name="l01221"></a><span class="lineno"> 1221</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; row_task_chain,</div>
+<div class="line"><a name="l01222"></a><span class="lineno"> 1222</span>&#160;                          common::Pipeline&lt;comm::Communicator&gt;&amp; col_task_chain, <span class="keyword">const</span> SizeType i_begin,</div>
+<div class="line"><a name="l01223"></a><span class="lineno"> 1223</span>&#160;                          <span class="keyword">const</span> SizeType i_split, <span class="keyword">const</span> SizeType i_end, RhoSender&amp;&amp; rho,</div>
+<div class="line"><a name="l01224"></a><span class="lineno"> 1224</span>&#160;                          WorkSpace&lt;T, D&gt;&amp; ws, WorkSpaceHost&lt;T&gt;&amp; ws_h,</div>
+<div class="line"><a name="l01225"></a><span class="lineno"> 1225</span>&#160;                          DistWorkSpaceHostMirror&lt;T, D&gt;&amp; ws_hm) {</div>
+<div class="line"><a name="l01226"></a><span class="lineno"> 1226</span>&#160;  <span class="keyword">namespace </span>ex = pika::execution::experimental;</div>
+<div class="line"><a name="l01227"></a><span class="lineno"> 1227</span>&#160; </div>
+<div class="line"><a name="l01228"></a><span class="lineno"> 1228</span>&#160;  <span class="keyword">const</span> matrix::Distribution&amp; dist_evecs = ws.e0.distribution();</div>
 <div class="line"><a name="l01229"></a><span class="lineno"> 1229</span>&#160; </div>
-<div class="line"><a name="l01230"></a><span class="lineno"> 1230</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
-<div class="line"><a name="l01231"></a><span class="lineno"> 1231</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
+<div class="line"><a name="l01230"></a><span class="lineno"> 1230</span>&#160;  <span class="comment">// Calculate the size of the upper subproblem</span></div>
+<div class="line"><a name="l01231"></a><span class="lineno"> 1231</span>&#160;  <span class="keyword">const</span> SizeType n1 = dist_evecs.globalTileElementDistance&lt;Coord::Row&gt;(i_begin, i_split);</div>
 <div class="line"><a name="l01232"></a><span class="lineno"> 1232</span>&#160; </div>
-<div class="line"><a name="l01233"></a><span class="lineno"> 1233</span>&#160;  <span class="comment">// Step #1</span></div>
-<div class="line"><a name="l01234"></a><span class="lineno"> 1234</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01235"></a><span class="lineno"> 1235</span>&#160;  <span class="comment">//    i1 (out) : initial &lt;--- initial (identity map)</span></div>
-<div class="line"><a name="l01236"></a><span class="lineno"> 1236</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l01237"></a><span class="lineno"> 1237</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01238"></a><span class="lineno"> 1238</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
-<div class="line"><a name="l01239"></a><span class="lineno"> 1239</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
-<div class="line"><a name="l01240"></a><span class="lineno"> 1240</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01241"></a><span class="lineno"> 1241</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
-<div class="line"><a name="l01242"></a><span class="lineno"> 1242</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
-<div class="line"><a name="l01243"></a><span class="lineno"> 1243</span>&#160;  }</div>
-<div class="line"><a name="l01244"></a><span class="lineno"> 1244</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
-<div class="line"><a name="l01245"></a><span class="lineno"> 1245</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
-<div class="line"><a name="l01246"></a><span class="lineno"> 1246</span>&#160;  }</div>
-<div class="line"><a name="l01247"></a><span class="lineno"> 1247</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
-<div class="line"><a name="l01248"></a><span class="lineno"> 1248</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l01233"></a><span class="lineno"> 1233</span>&#160;  <span class="comment">// The local size of the subproblem</span></div>
+<div class="line"><a name="l01234"></a><span class="lineno"> 1234</span>&#160;  <span class="keyword">const</span> GlobalTileIndex idx_gl_begin(i_begin, i_begin);</div>
+<div class="line"><a name="l01235"></a><span class="lineno"> 1235</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_begin{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_begin),</div>
+<div class="line"><a name="l01236"></a><span class="lineno"> 1236</span>&#160;                                     dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_begin)};</div>
+<div class="line"><a name="l01237"></a><span class="lineno"> 1237</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_loc_end{dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Row&gt;(i_end),</div>
+<div class="line"><a name="l01238"></a><span class="lineno"> 1238</span>&#160;                                   dist_evecs.nextLocalTileFromGlobalTile&lt;Coord::Col&gt;(i_end)};</div>
+<div class="line"><a name="l01239"></a><span class="lineno"> 1239</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_loc_tiles = idx_loc_end - idx_loc_begin;</div>
+<div class="line"><a name="l01240"></a><span class="lineno"> 1240</span>&#160;  <span class="keyword">const</span> LocalTileIndex idx_begin_tiles_vec(i_begin, 0);</div>
+<div class="line"><a name="l01241"></a><span class="lineno"> 1241</span>&#160;  <span class="keyword">const</span> LocalTileSize sz_tiles_vec(i_end - i_begin, 1);</div>
+<div class="line"><a name="l01242"></a><span class="lineno"> 1242</span>&#160; </div>
+<div class="line"><a name="l01243"></a><span class="lineno"> 1243</span>&#160;  <span class="comment">// Assemble the rank-1 update vector `z` from the last row of Q1 and the first row of Q2</span></div>
+<div class="line"><a name="l01244"></a><span class="lineno"> 1244</span>&#160;  assembleDistZVec(grid, full_task_chain, i_begin, i_split, i_end, rho, ws.e0, ws.z0);</div>
+<div class="line"><a name="l01245"></a><span class="lineno"> 1245</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws.z0, ws_hm.z0);</div>
+<div class="line"><a name="l01246"></a><span class="lineno"> 1246</span>&#160; </div>
+<div class="line"><a name="l01247"></a><span class="lineno"> 1247</span>&#160;  <span class="comment">// Double `rho` to account for the normalization of `z` and make sure `rho &gt; 0` for the root solver laed4</span></div>
+<div class="line"><a name="l01248"></a><span class="lineno"> 1248</span>&#160;  <span class="keyword">auto</span> scaled_rho = scaleRho(std::move(rho)) | ex::split();</div>
 <div class="line"><a name="l01249"></a><span class="lineno"> 1249</span>&#160; </div>
-<div class="line"><a name="l01250"></a><span class="lineno"> 1250</span>&#160;  <span class="keyword">auto</span> rots =</div>
-<div class="line"><a name="l01251"></a><span class="lineno"> 1251</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
+<div class="line"><a name="l01250"></a><span class="lineno"> 1250</span>&#160;  <span class="comment">// Calculate the tolerance used for deflation</span></div>
+<div class="line"><a name="l01251"></a><span class="lineno"> 1251</span>&#160;  <span class="keyword">auto</span> tol = calcTolerance(i_begin, i_end, ws_h.d0, ws_hm.z0);</div>
 <div class="line"><a name="l01252"></a><span class="lineno"> 1252</span>&#160; </div>
-<div class="line"><a name="l01253"></a><span class="lineno"> 1253</span>&#160;  <span class="comment">// ---</span></div>
-<div class="line"><a name="l01254"></a><span class="lineno"> 1254</span>&#160; </div>
-<div class="line"><a name="l01255"></a><span class="lineno"> 1255</span>&#160;  <span class="comment">// Make sure Isend/Irecv messages don&#39;t match between calls by providing a unique `tag`</span></div>
-<div class="line"><a name="l01256"></a><span class="lineno"> 1256</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01257"></a><span class="lineno"> 1257</span>&#160;  <span class="comment">// Note: i_split is unique</span></div>
-<div class="line"><a name="l01258"></a><span class="lineno"> 1258</span>&#160;  <span class="keyword">const</span> comm::IndexT_MPI tag = <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i_split);</div>
-<div class="line"><a name="l01259"></a><span class="lineno"> 1259</span>&#160;  applyGivensRotationsToMatrixColumns(grid.rowCommunicator(), tag, i_begin, i_end, std::move(rots),</div>
-<div class="line"><a name="l01260"></a><span class="lineno"> 1260</span>&#160;                                      ws.e0);</div>
-<div class="line"><a name="l01261"></a><span class="lineno"> 1261</span>&#160;  <span class="comment">// Placeholder for rearranging the eigenvectors: (local permutation)</span></div>
-<div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e1);</div>
-<div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160; </div>
-<div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;  <span class="comment">// Step #2</span></div>
-<div class="line"><a name="l01265"></a><span class="lineno"> 1265</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;  <span class="comment">//    i2 (in)  : initial &lt;--- pre_sorted</span></div>
-<div class="line"><a name="l01267"></a><span class="lineno"> 1267</span>&#160;  <span class="comment">//    i3 (out) : initial &lt;--- deflated</span></div>
-<div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
-<div class="line"><a name="l01270"></a><span class="lineno"> 1270</span>&#160;  <span class="comment">// - solve the rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2`.</span></div>
-<div class="line"><a name="l01271"></a><span class="lineno"> 1271</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
-<div class="line"><a name="l01272"></a><span class="lineno"> 1272</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01273"></a><span class="lineno"> 1273</span>&#160;  <span class="keyword">auto</span> k = stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_hm.i2, ws_h.i3) | ex::split();</div>
-<div class="line"><a name="l01274"></a><span class="lineno"> 1274</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
-<div class="line"><a name="l01275"></a><span class="lineno"> 1275</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
-<div class="line"><a name="l01276"></a><span class="lineno"> 1276</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
+<div class="line"><a name="l01253"></a><span class="lineno"> 1253</span>&#160;  <span class="comment">// Initialize the column types vector `c`</span></div>
+<div class="line"><a name="l01254"></a><span class="lineno"> 1254</span>&#160;  initColTypes(i_begin, i_split, i_end, ws_h.c);</div>
+<div class="line"><a name="l01255"></a><span class="lineno"> 1255</span>&#160; </div>
+<div class="line"><a name="l01256"></a><span class="lineno"> 1256</span>&#160;  <span class="comment">// Step #1</span></div>
+<div class="line"><a name="l01257"></a><span class="lineno"> 1257</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01258"></a><span class="lineno"> 1258</span>&#160;  <span class="comment">//    i1 (out) : initial &lt;--- initial (identity map)</span></div>
+<div class="line"><a name="l01259"></a><span class="lineno"> 1259</span>&#160;  <span class="comment">//    i2 (out) : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l01260"></a><span class="lineno"> 1260</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01261"></a><span class="lineno"> 1261</span>&#160;  <span class="comment">// - deflate `d`, `z` and `c`</span></div>
+<div class="line"><a name="l01262"></a><span class="lineno"> 1262</span>&#160;  <span class="comment">// - apply Givens rotations to `Q` - `evecs`</span></div>
+<div class="line"><a name="l01263"></a><span class="lineno"> 1263</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01264"></a><span class="lineno"> 1264</span>&#160;  <span class="keywordflow">if</span> (i_split == i_begin + 1) {</div>
+<div class="line"><a name="l01265"></a><span class="lineno"> 1265</span>&#160;    initIndex(i_begin, i_split, ws_h.i1);</div>
+<div class="line"><a name="l01266"></a><span class="lineno"> 1266</span>&#160;  }</div>
+<div class="line"><a name="l01267"></a><span class="lineno"> 1267</span>&#160;  <span class="keywordflow">if</span> (i_split + 1 == i_end) {</div>
+<div class="line"><a name="l01268"></a><span class="lineno"> 1268</span>&#160;    initIndex(i_split, i_end, ws_h.i1);</div>
+<div class="line"><a name="l01269"></a><span class="lineno"> 1269</span>&#160;  }</div>
+<div class="line"><a name="l01270"></a><span class="lineno"> 1270</span>&#160;  addIndex(i_split, i_end, n1, ws_h.i1);</div>
+<div class="line"><a name="l01271"></a><span class="lineno"> 1271</span>&#160;  sortIndex(i_begin, i_end, ex::just(n1), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l01272"></a><span class="lineno"> 1272</span>&#160; </div>
+<div class="line"><a name="l01273"></a><span class="lineno"> 1273</span>&#160;  <span class="keyword">auto</span> rots =</div>
+<div class="line"><a name="l01274"></a><span class="lineno"> 1274</span>&#160;      applyDeflation(i_begin, i_end, scaled_rho, std::move(tol), ws_hm.i2, ws_h.d0, ws_hm.z0, ws_h.c);</div>
+<div class="line"><a name="l01275"></a><span class="lineno"> 1275</span>&#160; </div>
+<div class="line"><a name="l01276"></a><span class="lineno"> 1276</span>&#160;  <span class="comment">// ---</span></div>
 <div class="line"><a name="l01277"></a><span class="lineno"> 1277</span>&#160; </div>
-<div class="line"><a name="l01278"></a><span class="lineno"> 1278</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01279"></a><span class="lineno"> 1279</span>&#160;  <span class="comment">//    i3 (in)  : initial &lt;--- deflated</span></div>
-<div class="line"><a name="l01280"></a><span class="lineno"> 1280</span>&#160;  <span class="comment">//    i2 (out) : initial ---&gt; deflated</span></div>
-<div class="line"><a name="l01281"></a><span class="lineno"> 1281</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01282"></a><span class="lineno"> 1282</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
-<div class="line"><a name="l01283"></a><span class="lineno"> 1283</span>&#160; </div>
-<div class="line"><a name="l01284"></a><span class="lineno"> 1284</span>&#160;  <span class="comment">// Note: here ws_hm.z0 is used as a contiguous buffer for the laed4 call</span></div>
-<div class="line"><a name="l01285"></a><span class="lineno"> 1285</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
-<div class="line"><a name="l01286"></a><span class="lineno"> 1286</span>&#160;                                  ws_hm.e2);</div>
-<div class="line"><a name="l01287"></a><span class="lineno"> 1287</span>&#160;  solveRank1ProblemDist(row_task_chain(), col_task_chain(), i_begin, i_end, idx_loc_begin, sz_loc_tiles,</div>
-<div class="line"><a name="l01288"></a><span class="lineno"> 1288</span>&#160;                        k, std::move(scaled_rho), ws_hm.d1, ws_hm.z1, ws_h.d0, ws_hm.i2, ws_hm.e2);</div>
-<div class="line"><a name="l01289"></a><span class="lineno"> 1289</span>&#160; </div>
-<div class="line"><a name="l01290"></a><span class="lineno"> 1290</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l01278"></a><span class="lineno"> 1278</span>&#160;  <span class="comment">// Make sure Isend/Irecv messages don&#39;t match between calls by providing a unique `tag`</span></div>
+<div class="line"><a name="l01279"></a><span class="lineno"> 1279</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01280"></a><span class="lineno"> 1280</span>&#160;  <span class="comment">// Note: i_split is unique</span></div>
+<div class="line"><a name="l01281"></a><span class="lineno"> 1281</span>&#160;  <span class="keyword">const</span> comm::IndexT_MPI tag = <a class="code" href="types_8h.html#af90e7fd5acadf5987b7199b0bd44deea">to_int</a>(i_split);</div>
+<div class="line"><a name="l01282"></a><span class="lineno"> 1282</span>&#160;  applyGivensRotationsToMatrixColumns(grid.rowCommunicator(), tag, i_begin, i_end, std::move(rots),</div>
+<div class="line"><a name="l01283"></a><span class="lineno"> 1283</span>&#160;                                      ws.e0);</div>
+<div class="line"><a name="l01284"></a><span class="lineno"> 1284</span>&#160;  <span class="comment">// Placeholder for rearranging the eigenvectors: (local permutation)</span></div>
+<div class="line"><a name="l01285"></a><span class="lineno"> 1285</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws.e0, ws.e1);</div>
+<div class="line"><a name="l01286"></a><span class="lineno"> 1286</span>&#160; </div>
+<div class="line"><a name="l01287"></a><span class="lineno"> 1287</span>&#160;  <span class="comment">// Step #2</span></div>
+<div class="line"><a name="l01288"></a><span class="lineno"> 1288</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01289"></a><span class="lineno"> 1289</span>&#160;  <span class="comment">//    i2 (in)  : initial &lt;--- pre_sorted</span></div>
+<div class="line"><a name="l01290"></a><span class="lineno"> 1290</span>&#160;  <span class="comment">//    i3 (out) : initial &lt;--- deflated</span></div>
 <div class="line"><a name="l01291"></a><span class="lineno"> 1291</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01292"></a><span class="lineno"> 1292</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
-<div class="line"><a name="l01293"></a><span class="lineno"> 1293</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
-<div class="line"><a name="l01294"></a><span class="lineno"> 1294</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
-<div class="line"><a name="l01295"></a><span class="lineno"> 1295</span>&#160;  dlaf::multiplication::generalSubMatrix&lt;B, D, T&gt;(grid, row_task_chain, col_task_chain, i_begin, i_end,</div>
-<div class="line"><a name="l01296"></a><span class="lineno"> 1296</span>&#160;                                                  T(1), ws.e1, ws.e2, T(0), ws.e0);</div>
-<div class="line"><a name="l01297"></a><span class="lineno"> 1297</span>&#160; </div>
-<div class="line"><a name="l01298"></a><span class="lineno"> 1298</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
-<div class="line"><a name="l01299"></a><span class="lineno"> 1299</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01300"></a><span class="lineno"> 1300</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
-<div class="line"><a name="l01301"></a><span class="lineno"> 1301</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
-<div class="line"><a name="l01302"></a><span class="lineno"> 1302</span>&#160;  <span class="comment">//</span></div>
-<div class="line"><a name="l01303"></a><span class="lineno"> 1303</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
-<div class="line"><a name="l01304"></a><span class="lineno"> 1304</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
-<div class="line"><a name="l01305"></a><span class="lineno"> 1305</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
-<div class="line"><a name="l01306"></a><span class="lineno"> 1306</span>&#160;}</div>
-<div class="line"><a name="l01307"></a><span class="lineno"> 1307</span>&#160;}</div>
+<div class="line"><a name="l01292"></a><span class="lineno"> 1292</span>&#160;  <span class="comment">// - reorder `d0 -&gt; d1`, `z0 -&gt; z1`, using `i3` such that deflated entries are at the bottom.</span></div>
+<div class="line"><a name="l01293"></a><span class="lineno"> 1293</span>&#160;  <span class="comment">// - solve the rank-1 problem and save eigenvalues in `d0` and `d1` (copy) and eigenvectors in `e2`.</span></div>
+<div class="line"><a name="l01294"></a><span class="lineno"> 1294</span>&#160;  <span class="comment">// - set deflated diagonal entries of `U` to 1 (temporary solution until optimized GEMM is implemented)</span></div>
+<div class="line"><a name="l01295"></a><span class="lineno"> 1295</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01296"></a><span class="lineno"> 1296</span>&#160;  <span class="keyword">auto</span> k = stablePartitionIndexForDeflation(i_begin, i_end, ws_h.c, ws_hm.i2, ws_h.i3) | ex::split();</div>
+<div class="line"><a name="l01297"></a><span class="lineno"> 1297</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_h.d0, ws_hm.d1);</div>
+<div class="line"><a name="l01298"></a><span class="lineno"> 1298</span>&#160;  applyIndex(i_begin, i_end, ws_h.i3, ws_hm.z0, ws_hm.z1);</div>
+<div class="line"><a name="l01299"></a><span class="lineno"> 1299</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.d1, ws_h.d0);</div>
+<div class="line"><a name="l01300"></a><span class="lineno"> 1300</span>&#160; </div>
+<div class="line"><a name="l01301"></a><span class="lineno"> 1301</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01302"></a><span class="lineno"> 1302</span>&#160;  <span class="comment">//    i3 (in)  : initial &lt;--- deflated</span></div>
+<div class="line"><a name="l01303"></a><span class="lineno"> 1303</span>&#160;  <span class="comment">//    i2 (out) : initial ---&gt; deflated</span></div>
+<div class="line"><a name="l01304"></a><span class="lineno"> 1304</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01305"></a><span class="lineno"> 1305</span>&#160;  invertIndex(i_begin, i_end, ws_h.i3, ws_hm.i2);</div>
+<div class="line"><a name="l01306"></a><span class="lineno"> 1306</span>&#160; </div>
+<div class="line"><a name="l01307"></a><span class="lineno"> 1307</span>&#160;  <span class="comment">// Note: here ws_hm.z0 is used as a contiguous buffer for the laed4 call</span></div>
+<div class="line"><a name="l01308"></a><span class="lineno"> 1308</span>&#160;  matrix::util::set0&lt;Backend::MC&gt;(pika::execution::thread_priority::normal, idx_loc_begin, sz_loc_tiles,</div>
+<div class="line"><a name="l01309"></a><span class="lineno"> 1309</span>&#160;                                  ws_hm.e2);</div>
+<div class="line"><a name="l01310"></a><span class="lineno"> 1310</span>&#160;  solveRank1ProblemDist(row_task_chain(), col_task_chain(), i_begin, i_end, idx_loc_begin, sz_loc_tiles,</div>
+<div class="line"><a name="l01311"></a><span class="lineno"> 1311</span>&#160;                        k, std::move(scaled_rho), ws_hm.d1, ws_hm.z1, ws_h.d0, ws_hm.i2, ws_hm.e2);</div>
+<div class="line"><a name="l01312"></a><span class="lineno"> 1312</span>&#160; </div>
+<div class="line"><a name="l01313"></a><span class="lineno"> 1313</span>&#160;  <span class="comment">// Step #3: Eigenvectors of the tridiagonal system: Q * U</span></div>
+<div class="line"><a name="l01314"></a><span class="lineno"> 1314</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01315"></a><span class="lineno"> 1315</span>&#160;  <span class="comment">// The eigenvectors resulting from the multiplication are already in the order of the eigenvalues as</span></div>
+<div class="line"><a name="l01316"></a><span class="lineno"> 1316</span>&#160;  <span class="comment">// prepared for the deflated system.</span></div>
+<div class="line"><a name="l01317"></a><span class="lineno"> 1317</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_loc_begin, sz_loc_tiles, ws_hm.e2, ws.e2);</div>
+<div class="line"><a name="l01318"></a><span class="lineno"> 1318</span>&#160;  dlaf::multiplication::generalSubMatrix&lt;B, D, T&gt;(grid, row_task_chain, col_task_chain, i_begin, i_end,</div>
+<div class="line"><a name="l01319"></a><span class="lineno"> 1319</span>&#160;                                                  T(1), ws.e1, ws.e2, T(0), ws.e0);</div>
+<div class="line"><a name="l01320"></a><span class="lineno"> 1320</span>&#160; </div>
+<div class="line"><a name="l01321"></a><span class="lineno"> 1321</span>&#160;  <span class="comment">// Step #4: Final permutation to sort eigenvalues and eigenvectors</span></div>
+<div class="line"><a name="l01322"></a><span class="lineno"> 1322</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01323"></a><span class="lineno"> 1323</span>&#160;  <span class="comment">//    i1 (in)  : deflated &lt;--- deflated  (identity map)</span></div>
+<div class="line"><a name="l01324"></a><span class="lineno"> 1324</span>&#160;  <span class="comment">//    i2 (out) : deflated &lt;--- post_sorted</span></div>
+<div class="line"><a name="l01325"></a><span class="lineno"> 1325</span>&#160;  <span class="comment">//</span></div>
+<div class="line"><a name="l01326"></a><span class="lineno"> 1326</span>&#160;  initIndex(i_begin, i_end, ws_h.i1);</div>
+<div class="line"><a name="l01327"></a><span class="lineno"> 1327</span>&#160;  sortIndex(i_begin, i_end, std::move(k), ws_h.d0, ws_h.i1, ws_hm.i2);</div>
+<div class="line"><a name="l01328"></a><span class="lineno"> 1328</span>&#160;  <a class="code" href="data_8h.html#a7f6919f56260399a905af9e869afba10">copy</a>(idx_begin_tiles_vec, sz_tiles_vec, ws_hm.i2, ws_h.i1);</div>
+<div class="line"><a name="l01329"></a><span class="lineno"> 1329</span>&#160;}</div>
+<div class="line"><a name="l01330"></a><span class="lineno"> 1330</span>&#160;}</div>
 <div class="ttc" id="ablas_2tile_8h_html"><div class="ttname"><a href="blas_2tile_8h.html">tile.h</a></div></div>
 <div class="ttc" id="aclassdlaf_1_1comm_1_1_communicator_html"><div class="ttname"><a href="classdlaf_1_1comm_1_1_communicator.html">dlaf::comm::Communicator</a></div><div class="ttdef"><b>Definition:</b> communicator.h:40</div></div>
 <div class="ttc" id="aclassdlaf_1_1common_1_1_index2_d_html"><div class="ttname"><a href="classdlaf_1_1common_1_1_index2_d.html">dlaf::common::Index2D&lt; SizeType, matrix::GlobalTile_TAG &gt;</a></div></div>