6 ноября 2008 года корпорация Intel официально представила Core i7 – первые процессоры архитектуры Nehalem. Новая линейка CPU принимает эстафету у суперуспешной разработки Intel Core. Оба поколения процессоров будут продаваться параллельно, вплоть до анонса двухъядерников Havendale, использующих микроархитектуру Intel Nehalem и разъем LGA1160. Потомок королей

Со времен исторического релиза микроархитектуры Core 2 прошло более двух лет. За этот длительный, по меркам IT-индустрии, срок борьба Intel и AMD на рынке мощных настольных процессоров фактически свелась на «нет». Запоздалый выход продуктов AMD Barcelona, их посредственная производительность и высокое тепловыделение решили исход локального сражения в пользу конкурентов.

Выпуск четырехъядерников Core i7 должен закрепить подавляющее преимущество Intel в секторе наиболее производительных решений. Кроме того, с анонсом Core i7 возвращается основательно подзабытая технология Hyper-Threading, обеспечивающая многопоточную обработку данных в пределах одного физического ядра. Этот факт должен побудить разработчиков ПО к дальнейшей оптимизации софта для процессоров с числом ядер больше двух.

Выход Nehalem полностью согласуется с фирменной концепцией Intel: появление новой архитектуры один раз в два года. Так, эра Intel Core 2 началась в июле 2006-го с выпуском процессоров Conroe. Далее последовал переход на 45-нм технологическую норму (семейство Penryn). И вот, с сегодняшнего дня, мы имеем дело с Core i7 – представителями архитектуры Nehalem на ядре Bloomfield.

В течение последующих 2-2,5 лет Intel примет на вооружение 32-нанометровый техпроцесс, связанный с приходом Westmere и Sandy Bridge. Впрочем, не будем забегать далеко вперед, а рассмотрим в мельчайших подробностях самые, что ни на есть свежие новинки процессорного рынка.

Читайте ниже о прогрессивном строении процессоров Core i7, особенностях их функционирования и показателях производительности. Также мы непременно упомянем о компонентах новой платформы LGA1366. Так что присаживайтесь поудобнее, будет интересно! Архитектура

Согласно официальным сведениям первые процессоры Nehalem обладают, по крайней мере, 731 млн. транзисторов, что на 10,7% меньше, чем у «квадов» Penryn Yorkfield. В то же время, площадь кристалла Core i7 увеличена с 214 до 263 мм2.

Процессоры Bloomfield имеют нативный четырехъядерный дизайн, тогда как структура их предшественников – Core 2 Quad – представляла собой мультичиповый модуль из пары Core 2 Duo. К числу основных элементов кристалла Core i7 принадлежат четыре физических ядра, разделяемый кэш третьего уровня, встроенный контроллер памяти DDR3 и шина QuickPath Interconnect (QPI).

Каждое из четырех ядер Bloomfield, в свою очередь, распределяется на меньшие блоки:

Ширина конвейера Core i7 сохранена на уровне 4-х инструкций за такт; при этом значительно расширены буферы резервирования, загрузки, хранения и внеочередного выполнения операций. Эти изменения помогают оптимизировать энергопотребление CPU и более эффективно распараллеливать вычисления.

В отличие от процессоров прошлых поколений, микроархитектура Nehalem предполагает трехуровневую организацию ячеек кэш-памяти. Кэши L1 и L2 выделены индивидуально для каждого ядра, а вот кэш третьего уровня является общим для всех ядер. Впервые подобная концепция была применена в процессорах AMD Phenom X4 Agena.

Кэш первого уровня, как и у Penryn, составляет 64 КБ: по 32 килобайта для инструкций и данных. Его латентность увеличена с 3 до 4 тактов, что позволяет Bloomfield достичь высоких результирующих частот, жертвуя при этом всего 2-3% производительности. Уровнем выше размещено небольшое (256 КБ) количество унифицированного L2 кэша, суммарный объем которого в 12 (!) раз меньше, чем у топовых представителей Core 2 Extreme. Это позволило разработчикам уменьшить время выполнения одной операции с 15 до 11 тактов и обеспечить должную масштабируемость вычислений.

Основная ставка в Core i7 сделана на кэш-память третьего уровня объемом 8 МБ, который является инклюзивным: он содержит все записи из L1 и L2, таким образом, снижая трафик запросов. Восьмимегабайтный буфер способен хранить большое число, часто используемых ядрами, инструкций. Чем выше загрузка кэша третьего уровня, тем эффективнее проявляет себя Core i7 в мультипоточных приложениях.

С приходом процессоров архитектуры Nehalem возвращается фирменная технология Intel Hyper-Threading (HT), также известная как Simultaneous Multithreading (SMT, технология «одновременной мультипоточности»). Принцип ее работы заключается в распределении операций с данными между двумя виртуальными потоками одного физического ядра. В частности, четырехъядерные модели Core i7 будут функционировать в 8 потоков.

Hyper-Threading позволяет эффективно обрабатывать разнотипные данные в пределах одного ядра. В то же время, интенсивные вычисления схожей природы увеличивают нагрузку на буфер изменения порядка команд (reorder buffer) вследствие соперничества операционных блоков за первоочередной доступ к кэшу. В подобных условиях активация HT приносит мало пользы, а в некоторых игровых приложениях даже приводит к снижению производительности.

Впрочем, основная масса программ положительно реагирует на многопотоковый алгоритм вычислений. Учитывая невысокую себестоимость внедрения Hyper-Threading и приобретенный инженерами Intel опыт, нет повода сомневаться в целесообразности нововведения.

С течением времени все большее количество разработчиков ПО будут адаптировать свою продукцию для процессоров с Simultaneous Multithreading. Уже сейчас список подобных приложений содержит, по крайней мере, полсотни наименований.

В первых процессорах Nehalem нашел применение обновленный до версии 4.2 набор инструкций SSE. Он включает в себя весь перечень потоковых SIMD-расширений v.4.1 плюс семь новых инструкций:

Благодаря SSE 4.2, процессоры Core i7 быстрее обрабатывают XML-код и введенный, с целью распознавания, рукописный текст. Идеально подходят для сложных математических вычислений, как-то: генный анализ, расчет расстояния Хэмминга или моделирование динамики роста населения, а также обладают расширенными коммуникационными возможностями – ускоренной работой с NAS-хранилищами и механизмом экономии электропитания в условиях Software I-SCSI, RDMA и SCTP.

Плавно переходя к описанию платформы Intel LGA1366 в целом, выделим два архитектурных блока, связывающих кристалл процессора с другими компонентами системы, – это QuickPath Interconnect (QPI) и Integrated Memory Controller (IMC).

Появление шины QPI обусловлено недостаточной пропускной способностью прежнего «мостика» между процессором и чипсетом – Front Side Bus (FSB). QPI действует в двунаправленном режиме, позволяя более гибко распределять системные ресурсы. Похожий по назначению интерфейс HyperTransport уже на протяжении нескольких лет используется в платформах AMD.

Один модуль QPI поддерживает 20 линий передачи данных в обоих направлениях со скоростью 6,4 ГТ/с. Суммарная пропускная способность шины – 25,6 гигабайт информации в секунду. Напомним, что в случае с Front Side Bus фигурировала цифра 12,8 ГБ/с, однако такой объем одновременно передаваемых данных был доступен только для чтения или только для записи. Таким образом, интерфейс QPI в 2-3 раза «шире» предшественника и к тому же не обременен взаимодействием с оперативной памятью – для этого есть встроенный контроллер DDR3.

Ядро настольных Core i7 имеет одну шину QPI, а вот в серверных процессорах содержатся два одноименных интерфейса. Один из них, по-прежнему, отвечает за связь с чипсетом, а второй служит «мостиком» между процессорами. В любом случае, производительности QuickPath Interconnect вполне достаточно, чтобы обеспечить жизнедеятельность платформ с несколькими CPU.

Последний важный элемент процессорного кристалла Bloomfield – Integrated Memory Controller (IMC). Напомним, что это первый опыт Intel в переносе управляющих структур памяти из северного моста в тело CPU.

Дебютное воплощение IMC предлагает трехканальный (192-битный) режим работы оперативной памяти. Поэтому считается, что лучшими наборами модулей RAM для платформы Nehalem LGA1366 станут комплекты DDR3, состоящие из трех планок. Впрочем, предварительные тесты показывают лишь небольшой, 1-5-процентный, прирост производительности при переходе с двух- на трехканальную организацию подсистемы памяти.

В целом, сниженная латентность доступа к RAM, возникшая за счет переноса IMC в тело процессора, дает значительный прирост пропускной способности памяти. Интересно другое: в большинстве приложений DDR3-1066 CL7 ничуть не уступает DDR3-1600 CL8, следовательно, потребность мощных систем в высокочастотных модулях памяти отходит на второй план.