そんな訳で、色々と細かな変更が図られているデコード段であるが、そうなるとUtil29なんかどうなるか? ということでちょっと試してみた。Util29の説明はこちらに詳しいが、Core MA上で最大5命令/cycleで動くプログラムと、これを改変したプログラムから構成されている。
さて、これを実施した結果がグラフ20である。まず明らかなことは、もはやCore MA向けに最適化されたプログラムは、Nehalem MAでは最適ではないことだ。Test1は、Core MAでは1cycleで動くものであり、これが1.8cycle程度掛かっている(2cycleにならないのは、17Bytes/cycleの帯域のお陰か、Complex Decoderの分か、どちらかと思われる)時点で、従来利用できたMacroOps Fusionの組み合わせ方が変化したと考えざるを得ない。ただ、逆にTest2とかTest4/Test6では微妙に高速化しているあたり、全てが完全に変わった、という訳でもない。どうもこのあたりは、LSDをデコード段の後ろに持ってきた事が関係しているようだ。