Intelのプロセサでは、従来もサーバ用のXeonチップではL3キャッシュを搭載するものがあったが、Nehalemでは、モジュール化のためにより整理された形でL3キャッシュが使われている。NehalemのCPUコアは、32KBのL1命令キャッシュ、同じく32KBのL1データキャッシュと256KBの命令、データ共用のL2キャッシュを持っている。
IntelのL1データキャッシュは伝統的にWriteThrough方式であり、CPUがL1データキャッシュ書き込みを行うと、同時に下位のキャッシュにも書き込む。この方式では、コア数に比例して下位のキャッシュに書き込みが起こってしまう。これでは、構造をモジュラーにして、広い範囲のコア数の製品をつくるには都合が悪い。
これが各コアにL2キャッシュが導入された理由と考えられる。256KBのL2キャッシュを置き、これをWriteback方式のキャッシュ(書き込み情報はキャッシュに溜めておき、下位のキャッシュには一々書き込まない)とすることにより、全コア共通のL3キャッシュへのアクセス頻度を減らし、多数コアへのスケーラビリティーを確保している。また、L2キャッシュを各CPUコアに専属としたので、配線も短く、アクセス権の調停も不要なので、アクセス時間を短縮することができる。
Nehalemでは、L3キャッシュは、全コアのL1、L2キャッシュに格納されているデータを保持するInclusion方式を取っている。この方式は、チップ内に同じデータを重複してもつので容量的には不利であるが、マルチソケットシステムで、他のチップからのキャッシュスヌープ(キャッシュ内に指定アドレスのデータを格納しているかどうかの問い合わせ)の場合に、L3キャッシュの内容だけをチェックすれば良いというメリットがある。Inclusion方式でない場合は、各コアのL1、L2キャッシュにも問い合わせを送る必要があり、各コアのキャッシュの負担が大きく、スケーラビリティーが悪いという。
NehalemのCPUコアは、基本的にはCore 2のアーキテクチャを踏襲しているが、性能向上のために、色々な改善が追加されている。機能的な改善では、テキスト処理などの性能を向上するSSE4.2が追加された点と、2スレッドの同時マルチスレッドがサポートされた点である。今回のIntelの発表スライドでは、マルチスレッドは学会の標準用語であるSimultaneous Multi-Threadingと書かれているケースが多いが、Intel Hyper-Threading Technologyと書いたページもあり、エンジニアはSMTと言っているが、マーケティングはHyper-Threadingを使いそうな感じである。
また、性能的な改善としては、Out-of-Order実行での命令バッファをMeromの96から128に増やし、従来より33%多い128命令の中から並列に実行できる命令を探すことができるようになった。その他にも、リターンスタックにもリネームを適用して精度を高めたり、ロック機構を高速化したり、ループの高速化などが行われている。更に、SSEユニットで16バイト境界に整列していないデータでも時間的なペナルティー無くアクセスできるようにする改善や、ページ単位のアドレス変換のためのキャッシュであるTLBを、従来の1段階から2段階のキャッシュにしてヒット率を高めるなどの改良が行われている。