вторник, 8 сентября 2020 г.

История Intel в процессорах. Часть четвертая - Pentium 4 – новая архитектура. Эра NetBurst

Логотип Intel Pentium 4   Задолго, до того как процессоры Pentium !!! подошли к пределу наращивания частоты, инженеры Intel начали разработку новой архитектуры процессоров следующего поколения – NetBurst. Это был разработанный с чистого листа процессор, без оглядки на существовавшую уже пять лет, еще со времен Pentium PRO архитектуру P6. К тому времени устоявшейся тенденцией было то, что с каждым новым поколением, увеличивалась как частота, так и удельная производительность процессора – практически всегда более новый процессор, работая на одинаковой частоте, выигрывал у старого, или как минимум показывал одинаковую производительность. Этим и воспользовалась Intel, делая ставку на достижение высоких частот, в ущерб количеству «полезной работы» выполняемой за один такт.


   Первые упоминания о Willamette, именно так называлось первое ядро NetBurst, в официальных планах Intel были в конце 1998 года, а первые образцы показаны в феврале 2000 года. Процессор показанный на форуме разработчиков Intel (IDF Spring 2000) работал на частоте 1500 МГц, что более чем впечатляло на фоне того, что серийный Pentium !!! Coppermine с частотой 1000 МГц, был представлен только в марте. Что-же позволило стартовать с таких высоких частот, и какую цену пришлось за это заплатить?
   Одним из ключевых моментов новой архитектуры был увеличенный до 20 стадий конвейер (Hyper Pipelined Technology). Но важным было то, что в архитектуре NetBurst декодер, выполняющий преобразование x86 команд в микрооперации, был вынесен за пределы основного конвейера. Это позволяет разделить процессы декодирования и исполнения команд – теперь процессор декодирует команды не «на лету» в процессе выполнения, а заранее, еще на стадии копирования кода в кэш-память первого уровня. Для реализации такой возможности была полностью переработана система кэширования первого уровня. Кэш данных был уменьшен в размере до 8 Кб, а вместо кэша инструкций был применен абсолютно новый кэш трасс (Trace Cache) который хранит инструкции в уже декодированном виде, и кроме того сразу строит цепочки (трассы) последовательно выполняемых инструкций с учетом механизма предсказания переходов! Емкость этого кэша около 12000 микроопераций. Декодер за один такт обрабатывает одну x86-инструкцию, выдает на выходе до четырех микроопераций, и записывает их в Trace Cache, который работает на половинной частоте процессора (про асинхронную работу различных блоков процессора будет рассказано позднее). Организация кэша второго уровня осталась без изменений – все тот-же Advanced Transfer Cache с шириной шины 256 бит, но более низкой латентностью, чем в Pentium !!!.
   Раньше я уже писал, что чем длиннее конвейер, тем больше тактов будет потеряно в случае неправильно предсказанного перехода. С 20 ступенями  NetBurst потери становятся очень ощутимыми, поэтому для их минимизации была существенно переработана система предсказания переходов. Применен большой буфер адреса перехода (BTB — branch target buffer), хранящий историю примерно 4000 предыдущих переходов, вместо 512 в P6. Также усовершенствован алгоритм предсказания переходов, позволяющий с большей степенью точности предсказывать правильность переходов. Данные меры позволили добиться существенного увеличения точности по сравнению с семейством Р6 — приблизительно на треть, таким образом, для процессора Pentium 4 вероятность удачного предсказания составляет порядка 93-94 процентов.
   Также в процессор был добавлен механизм предварительной загрузки данных в кэш (Prefetch). Его задача в том, чтобы «угадать» какие данные понадобятся процессору, и заранее загрузить их в кэш. Дело в том, что процесс загрузки данных из оперативной памяти занимает сотни тактов, и выполняя загрузку необходимых данных заранее, повышается КПД процессора.
   Также обеспечить более полную загрузку исполнительных устройств можно увеличив количество доступных к выполнению команд на этапе внеочередного исполнения. Для этого, станцию-резервуар (Reservation Station), которая называется в новом процессоре окном команд (Instruction Window), но не меняющей от этого своей сути и назначения, значительно увеличили, расширив до 126 инструкций — теперь у процессора есть больший выбор среди микрокоманд для внеочередного исполнения. Также было увеличено количество служебных регистров до 128.
   Полностью новыми были и исполнительные устройства, которых в микроархитектуре NetBurst пять. Для работы с целочисленной арифметикой используются 3 ALU (Arithmetic and Logic Unit). Одно, называемое slow ALU может обрабатывать большое число сложных операций, и два fast ALU которые могут обрабатывать только простые целочисленные операции вроде сложения, зато делают это на удвоенной частоте, то есть могут обрабатывать две операции за один такт! Также на удвоенной частоте работают планировщики обслуживающие fast ALU и регистровый файл, используемый для хранения результатов работы fast ALU. Все блоки, работающие на удвоенной частоте, получили название - Rapid Execution Engine.
   Если с целочисленными вычислениями все вышло хорошо, то вычисления с плавающей запятой не являются сильной стороной NetBurst. Блока FPU два, причем не равнозначных – второй выполняет лишь простейшие команды. Основной упор был сделан не на классический мощный FPU, а на дополнительный набор инструкций SSE2. Были добавлены 144 новых инструкций, для работы с 128 битными регистрами. Важно то, что в один регистр можно записать четыре 32-х битных значения и обрабатывать их одной командой!
   Одной из особенностей архитектуры NetBurst вызванной увеличением ступеней исполнительного конвейера является удаленность диспетчера, выбирающего команды для исполнения из окна команд, от исполнительных устройств, до которых команда дойдет только через несколько тактов. Сама по себе удаленность проблемой не является – планировщик знает, сколько тактов команда будет идти к исполнительным устройствам и отправляет ее заранее. Но при таком подходе планировщик не может знать, как выполнилась предыдущая команда (от которой может быть зависима выпускаемая) и доступны-ли запрошенные для выпускаемой команды данные. Если ожидать результатов выполнения предыдущей команды или готовности данных будут теряться драгоценные такты выполняемые вхолостую. Поэтому планировщик всегда считает, что команда выполнится успешно, и необходимые данные есть в кэше первого уровня. Благодаря этому достигается максимальная загрузка исполнительных блоков. Но есть и обратная сторона медали. Что делать если данных в кэше L1 не оказалось, и команда не может быть выполнена? Напомню, что согласно идеологии NetBurst процессор должен работать на очень высоких частотах, следовательно, громоздкая реализация не подходит. Инженеры Intel вышли из этой ситуации следующим образом – планировщик, отправляя команду по конвейеру к исполнительным блокам, делает ее копию, и отправляет на второй, вспомогательный конвейер с холостыми стадиями, по которому копия команды движется параллельно основной команде до стадии выполнения. Этот конвейер получил название Replay System. Если выполнение проходит успешно, то команда с конвейера Replay уничтожается. Если-же данные в кэше первого уровня не оказалось, то происходит следующая ситуация: основная команда уничтожается, а команда с вспомогательного конвейера Replay возвращается в планировщик, проходя перед этим еще несколько стадий конвейера Replay. Эти стадии рассчитаны так, чтобы пройдя их, а потом через планировщик, который остановит основной поток команд чтобы пропустить вернувшуюся через Replay команду, и после этого повторно пройдя ступени основного конвейера к исполнительным устройствам были доставлены данные из кэша второго уровня. Если в кэше второго уровня данных не окажется и команда во второй раз не сможет выполниться, то она будет отправлена на Replay еще раз. Кроме того, на Replay отправятся все команды зависимые от первой – ведь они тоже не смогут выполниться, поскольку нет результатов выполнения первой команды! Отрицательным моментом является не сам конвейер Replay, который в определенной мере виртуальный, и никакой работы в нем не совершается, а то, что команда несколько раз может проходить через стадии основного конвейера, занимая его бесполезной работой, а также вызывая дополнительный нагрев. Не углубляясь больше в описание технологии, просто замечу, что возможны ситуации, когда довольно большой объем команд проходит через конвейер Replay, таким образом, снижая производительность процессора вдвое (ведь фактически команды выполнятся два раза – первый раз неправильно, и повторно вернувшись на конвейер второй раз правильно).
   Рассмотрев подробнее архитектуру нового процессора, становится понятно, насколько важным становится высокая скорость доступа к оперативной памяти. Для связи процессора с чипсетом на материнской плате была применена совершенно новая шина с передачей четырех сигналов за такт (QPB - Quad Pumped Bus). Это позволило получить результирующую частоту 400 МГц и пропускную способность 3,2 Гб/с. Этой шине суждено было стать долгожителем и пережить не одно поколение процессоров, но об этом позже. Стоит все-же заметить, что реальная частота шины была 100 МГц, и максимальную пропускную способность она могла показать только при передаче непрерывного потока данных. В остальных случаях  пропускная способность использовалась далеко не полностью. Но так как вся архитектура NetBurst была рассчитана как раз на потоковую обработку данных это не недостаток, а скорее особенность.
   В плане производительности все также было неоднозначно. На оптимизированном коде скорость процессора была очень высокой. Также сильной стороной архитектуры были потоковые операции обработки мультимедиа-данных, и частично 3D игры. Слабой стороной была производительность в офисных приложениях. Но в Intel вполне справедливо расценили эту ситуацию так: процессор обеспечивает максимальную производительность именно там, где она необходима. А в офисных приложениях часто скорость ограничивается скоростью реакции пользователя, что в любом случае гораздо ниже, чем самый медленный процессор. И надо сказать, что в этом была большая доля истины.

Willamette

Pentium 4 Willamette   Важной вехой в истории процессоров стал Pentium 4, представленный Intel 20 ноября 2000 года. Были выпущены модели с частотами 1,4 и 1,5 ГГц. Новые процессоры хоть и вызвали большой интерес, но стать хитом продаж им было не суждено, как из-за крайне низкой производительности (в подавляющем большинстве задач производительность модели 1,4 ГГц была ниже чем Pentium !!! 1000, так и из-за необходимости менять платформу целиком. Процессоры выпускались в корпусе типа FCPGA (корпус представлял собой микросхему в корпусе OLGA, установленную на переходник PGA) и предназначались для установки в системные платы с разъёмом Socket 423.  Материнские платы, работали исключительно с памятью RDRAM, которая обладала заоблачной ценой и на тех частотах не показывала весомого преимущества перед привычной SDRAM. Так как работая на таких высоких частотах (вспомним что линейка Pentium !!! только недавно с трудом добралась до 1000 МГц) процессор потреблял много энергии и выделял много тепла, были разработаны дополнительные требования к блоку питания (так появился дополнительный 4-х контактный разъем для питания процессора) и даже корпусу! Кулер крепился не к сокету на плате, как это было принято, а через специальные отверстия в ней напрямую к корпусу!
Pentium 4 Willamette Socket 478   Процессоры Pentium 4 на ядре Willamette выпускались с использованием 0,18 мкм. техпроцесса, состояли из 42 млн. транзисторов и работали с напряжением питания 1,7-1,75 В. После выпуска первых моделей с частотами 1,4-1,5 ГГц, позднее 3 января 2001 года была представлена младшая модель с частотой 1,3 ГГц, позже весной и летом 2001 года модели с частотами от 1,6 до 1,8 ГГц, а 27 августа 2001 года анонсированы топовые модели Willamette с частотами 1,9 и 2,0 ГГц. Увеличение частоты практически в два раза на одинаковом техпроцессе в сравнении с Pentium !!!, красноречиво доказывало правильность выбранной Intel стратегии.
   Вместе с верхними моделями Willamette, была представлена новая упаковка процессора - FC-mPGA2, которая отличалась маленькими размерами (сравнимыми с i386). Смена конструктива потребовала очередную смену материнской платы – процессор работал в разъеме Socket 478. Таким образом, предыдущая платформа Socket 423 оказалась одной из наиболее короткоживущих.

Northwood

   Настоящим расцветом архитектуры NetBurst, является Pentium 4 в основе которого лежит ядро Northwood. 7 января 2002 года Intel представляет две модели процессора Pentium 4 с частотами 2,0 и 2,2 ГГц., главной особенностью которых было использование нового, 0,13 мкм. ядра. Кроме уменьшения техпроцесса, Northwood мог похвастаться увеличенным в два раза объемом кэша L2 – 512 Кб. Благодаря этому, количество транзисторов в ядре достигло 55 млн, из которых около 40% приходятся на кэш. Также более тонкий техпроцесс позволил уменьшить напряжение питания до 1,5 В, что снизило выделение тепла более чем в полтора раза. В остальном, с архитектурной точки зрения, кроме размера кэша, процессоры Northwood не отличались от предшественника Willamette.
Pentium 4
   Процессоры Northwood стартовали с частоты 2,0 ГГц, а позднее, в связи с сворачиванием выпуска Willamette, были выпущены младшие модели с частотами 1,6 и 1,8 ГГц. На пересекающихся частотах, для различия нового процессора от старого в обозначении снова была использована буква A – например, Pentium 4 1.8A. Процессоры на ядре Northwood  выпускались для использования в разъеме Socket 478.
   Первое обновление Northwood было 6 мая 2002 года, когда Intel представила процессоры с частотами от 2,26 до 2,53 ГГц. Отличием от ранее выпускавшихся Pentium 4 была увеличенная до 533 МГц частота системной шины (реальная частота 133 МГц), что дало пропускную способность 4,2 Гб/с. Для отличия от процессоров с шиной 400 МГц, снова была применена буквенная маркировка, на этот раз, как и в Pentium !!!, улучшенная шина обозначалась буквой B – например Pentium 4 2.4B.

Celeron

   Одновременно с выходом Celeron 1.4 ГГц на ядре Tualatin, 15 мая 2002 года, Intel также выпускает новый Celeron, основанный на архитектуре NetBurst, в основе которого лежит ядро Willamette-128. Как видно из названия новый бюджетный процессор был основан на ядре Willamette с уменьшенным до 128 Кб кэшем второго уровня. Стартовал с частоты 1,7 ГГц, а позднее, 12 июня была выпущена версия 1,8 ГГц. Устанавливался в разъем Socket 478, и за исключением размера кэша полностью повторял  характеристики Willamette, следовательно, унаследовал как сильные, так и слабые стороны NetBurst. Уменьшение кэша в два раза не могло не сказаться на производительности, но в среднем новые процессоры обеспечивали такую-же скорость, как и предшественники с частотами 1,3-1,4 ГГц, что фактически поставило крест на платформе Socket 370.
Celeron Northwood   Спустя несколько месяцев, 18 сентября 2002 года, Intel переводит процессор Celeron на новое ядро - Northwood-128, выпустив очередной процессор Celeron 2.0 ГГц. По своим характеристикам процессор ничем не отличался от Willamette-128, кроме уменьшенного техпроцесса 0,13 мкм. Это позволило во первых, существенно снизить тепловыделение, а во вторых наращивать частоту процессора, которая к 5 ноября 2003 года достигла 2,8 ГГц. Также, по мере снятия с производства процессоров Willamette, на ядре Northwood-128 были выпущены младшие модели, с частотами ниже 2,0 ГГц. В случае с Celeron, так как никаких отличия в плане производительности не было, никакой дополнительной маркировки для обозначения новых процессоров не понадобилось.
   Все процессоры Celeron работали на шине с частотой 400 МГц и устанавливались в разъем Socket 478.

Pentium 4 w/ Hyper-Threading   

Логотип Pentium 4 w/ Hyper-Threading   В течение 2002го года, процессоры Pentium 4 активно наращивали тактовую частоту, перешагнув отметку 3000 МГц 14 ноября 2002 года. В этот день, Intel анонсирует процессор с частотой 3,06 ГГц и частотой системной шины 533 МГц. Но главным отличием, помимо возросшей частоты, была поддержка технологии Hyper-Threading – суть которой в том, что один физический процессор эмулирует работу двух логических.
   В результате исследований Intel оказалось, что в среднем одновременно загружены работой, около 30% исполнительных устройств процессора. Например, когда выполняется целочисленная команда блоком ALU, то FPU простаивает, и т.д. Поэтому были приняты попытки обеспечить более плотную загрузку исполнительных устройств, результатом которых и стала технология Hyper-Threading. Для внедрения Hyper-Threading не потребовалась большая переработка процессорного ядра. Intel приводит цифру в 5% транзисторов от общего количества, занятых обслуживанием логики HT. Были продублированы модули, отвечающие за архитектурное состояние каждого из логических процессоров, продублирован набор регистров общего назначения, а также к каждой команде был добавлен идентификатор, указывающий на то, к какому логическому процессору она относится. Вот в принципе и все – все остальные ресурсы процессора остались неизменными – планировщик по очереди отправляет на конвейер команды принадлежащие различным логическим процессорам, с учетом загрузки исполнительных устройств и наличия необходимых для их выполнения данных. Таким образом, для операционной системы и приложений никакой разницы в работе с двумя физическими процессорами, или одним процессором оснащенным технологией Hyper-Threading нет.
   14 апреля 2003 года, Intel продолжая совершенствовать Pentium 4, выпускает процессор с частотой 3,0 ГГц главной особенностью которого был переход на системную шину с частотой 800 МГц (реальная частота 200 МГц) что обеспечило пропускную способность 6,4 Гб/с. Позже, 21 мая, линейка процессоров с 800МГц шиной, была расширена вниз моделями с частотами от 2,4 до 2,8 ГГц. Для отличия от уже существующих моделей с шиной 400 и 533 МГц, было применено обозначение буквой C – например, Pentium 4 2.4C. А 23 июня был выпущен процессор с частотой 3,2 ГГц. Своей максимальной частоты 3,4 ГГц, Northwood достиг 2 февраля 2004 года. Все процессоры с шиной 800 МГц поддерживали технологию Hyper-Threading.

Prescott

   2 февраля 2004-го года, Intel «взяла» очередную частоту в линейке процессоров Pentium 4. Но на этот раз было представлено сразу два процессора с частотой 3,4 ГГц. Один – на привычном 0,13 мкм ядре Northwood, а второй – на новом 0,09 мкм ядре Prescott. Появления нового поколения Pentium 4 компьютерная общественность ждала с нетерпением. Intel подогревая интерес, заранее анонсировала сильные стороны нового ядра, такие как увеличенный в два раза объем кэш-памяти, улучшенная работа системы предсказания переходов и новое поколение виртуальной многоядерности Hyper-Threading. Переход на более тонкий техпроцесс 0,09 мкм давал надежду на рост частоты (которую обещали для нового ядра довести до 4,5 Ггц), и уменьшение тепловыделения. Одним словом все ждали повторение перехода с 0,18 на 0,13 мкм техпроцесс, подобный тому, который произошел при смене ядра Willamette на ядро Northwood. Но все было не так просто…
   После анонса нового ядра в начале февраля 2004-го года, оказалось что Prescott – это не просто Northwood с увеличенным кэшем и выпущенный с применением более тонкого техпроцесса, а абсолютно новое ядро. Да, архитектура процессора не изменилась – это все тот-же NetBurst, с такой-же архитектурой ядра. Но вот сами функциональные блоки были сильно переделаны. Главным новшеством, и заодно разочарованием, было очередное удлинение исполнительного конвейера более чем в полтора раза – с 20 до 31-й ступени! Выше я рассказывал чем это чревато. Но стоит отдать должное разработчикам Intel – общая производительность нового процессора оказалась на уровне прошлого ядра Northwood. В каких-то задачах Prescott был быстрее, в каких-то медленнее. Но в целом показывал сравнимый уровень производительности.
   Для того, чтобы нивелировать полуторакратное удлинение конвейера,  разработчикам нового процессора пришлось приложить большие усилия. Во первых, был вдвое увеличен объем кэш-памяти. Кэш данных L1 теперь имеет объем 16 Кб (вместо 8 Кб в прошлых ядрах), а кэш второго уровня L2 вырос до 1 Мб. При этом размер Trace Cache хранящий декодированные инструкции в виде цепочек микроопераций имеет прежний объем в 12000 микроопераций. Был улучшен блок предсказания ветвлений. По информации Intel ядро Prescott делает на 12% меньше неправильных предсказаний. А абсолютная цифра уменьшилась с 0,86 ошибок на 100 переходов до 0,75 неправильных предсказаний на 100 переходов. Была значительно улучшена предварительная загрузка данных в кэш. Тут как раз удвоенные размеры кэша оказались очень кстати. Также был переработан механизм доступа к памяти, что позволило увеличить скорость загрузки данных в ядро. Была доработана технология Hyper-Threading. Но большей частью увеличение многопоточной производительности было вызвано не столько самой доработкой HT, сколько увеличением скорости работы с памятью и объемом кэша – теперь для двух виртуальных процессоров больше места для хранения «своих» данных в кэше, и следовательно выше вероятность того, что необходимые данные сразу для двух потоков там найдутся. Ну и напоследок упомяну про добавленные новые инструкции SSE3. Правда этот набор содержит всего 13 новых инструкций, и скорее дополняет предыдущие SSE и SSE2, чем добавляет что-то принципиально новое. Были внесены изменения в блоки целочисленных вычислений ALU для ускорения обработки некоторых команд.
Ядро Prescott   Ядро Prescott состоит из 125 миллионов транзисторов что более чем вдвое больше чем было в Northwood. Насколько глубоко было переработано ядро можно понять по тому факту, что весь объем кэша занимает всего лишь около 25% площади ядра. Но несмотря на такое увеличение количества транзисторов в ядре, благодаря новому техпроцессу его площадь удалось сделать меньшей чем площадь ядра Northwood. Также, при разработке топологии ядра широко применялись технологии компьютерного моделирования, и функциональные блоки оказались «размазаны» по ядру, в отличие от прежних ядер, где функциональные блоки были своего рода «кирпичиками», из которых, как из кубиков LEGO складывалось процессорное ядро. Такой подход позволил оптимизировать время прохождения сигнала, уменьшить силовые линии питания, избежать локальных перегревов. Но несмотря на это, а также более тонкий техпроцесс – тепловыделение, и следовательно нагрев, процессоров Prescott оказалось существенно выше чем у равночастотных Northwood. Также как и частотный потенциал первых процессоров оказался ничуть не лучше чем старого 0,13 мкм ядра.
   2 февраля 2004-го года были представлены модели с частотами от 2,8 до 3,4 ГГц. Младшая модель работала с частотой шины 533 МГц и не поддерживала технологию Hyper-Threading. Остальные процессоры выпускались для работы с 800 МГц шиной и поддержкой HT. Процессоры были выпущены в конструктиве Socket 478, как и Pentium 4 предыдущего поколения, но имели ограниченную совместимость со старыми материнскими платами. В первую очередь из-за повышенных требований к питанию.

Prescott LGA775

   Спустя четыре с половиной месяца после анонса процессоров Prescott, 21 июня 2004-го года, компания Intel выпускает не просто несколько очередных более высокочастотных процессоров семейства Pentium 4, а фактически представляет новую платформу, совершив небольшую революцию. Поменялось все – новый стандарт памяти DDR2 (несовместимый с существующей DDR), новый интерфейс видеоадаптера PCI Express, новый стандарт интегрированного звука, сделавший абсолютно бесполезной покупку отдельной звуковой карты для 99% пользователей. И естественно новый процессорный разъем LGA775, в котором процессор оказался лишен выводов – на процессоре остались лишь контактные площадки, а разъем на материнской плате содержит 775 подпружиненных контактов. Стоит сказать, что некоторые возможности новой платформы были рассчитаны «на вырост», как например новый интерфейс для видеоадаптеров. Видеокартам 2004-го года с запасом хватало пропускной способности AGP8x. А первые модули оперативной памяти DDR2 533 МГц, показывали более низкую скорость, чем проверенные временем и отточенные до предела DDR 400. Но такова была цена прогресса.
Socket 478 - слева, Socket 775 – справа.
Socket 478 - слева, Socket 775 – справа.

   Кроме всех технических нововведений, изменилась и политика Intel относительно наименования процессоров. Ранее название процессора складывалось из торговой марки (в нашем случае Pentium 4) и тактовой частоты (например 2,8 ГГц). Отдельно указывались дополнительные параметры, такие как частота шины и размер кэш-памяти второго уровня. Были попытки с помощью буквенного обозначения определить принадлежность процессора к новому ядру (в случае с Pentium 4 1.8A), или поддержке 800 МГц шины с технологией HT (например Pentium 4 2.4C). Теперь-же Intel вводит процессорный номер, который применяется совместно с торговой маркой. Например упомянутый выше Pentium 4 с частотой 2,8 работающий на шине 800 МГц с поддержкой технологии HT теперь назывался Pentium 4 520. Процессор с такой-же частотой 2,8 ГГц но работающий с шиной 533 МГц назвали Pentium 4 518. Близко 520, но немного хуже. А процессор с частотой 3,4 ГГц, назывался Pentium 4 550. Впрочем, на упаковке и в спецификациях все равно указывались все характеристики.
   Выпуском платформы LGA775, которая станет очередным долгожителем и в будущем сменит не одно поколение процессоров, Intel разграничивает старую архитектуру Northwood, от новой Prescott. Теперь все новые процессоры будут выходить только для LGA775. Socket 478 еще некоторое время останется в бюджетном сегменте, но скоро будет вытеснен и оттуда.
   21 июня 2004-го года были представлены пять процессоров Pentium 4 для новой платформы с частотами от 2,8 ГГц (процессорный номер 520) до 3,6 ГГц (процессорный номер 560). Все представленные процессоры Prescott для платформы LGA775 работали на частоте шины 800 МГц, и поддерживали технологию Hyper-Threading.
   Еще при анонсе ядра Prescott и раскрытия информации о том, что ядро будет состоять из 125 миллионов транзисторов, стало понятно, что скорее всего Intel добавила в процессор некоторый функционал, который будет активирован позднее (как тот-же Hyper-Threading впервые появившийся еще в ядре Willamette, где был отключен). Первой такой функцией была Execute Disable Bit – на аппаратном уровне предотвращающая некоторые атаки вирусов помечая область в памяти в которой содержатся данные и запрещая выполнение кода из нее. Первым процессором с поддержкой этой функции стал Pentium 4 570J (в дальнейшем процессоры с поддержкой Execute Disable Bit маркировались буквой J) с частотой 3,8 ГГц представленный осенью 2004-го года. Частота 3,8 ГГц стала максимальной частотой процессоров NetBurst. Более высокочастотные модели не выпускались.

Prescott 2M

Процессор Prescott 2M   Следующим шагом в развитии Pentium 4 стала 600-я линейка представленная в феврале 2005-го года. Процессоры с частотами от 3 до 3,6 ГГц были основаны на обновленном ядре Prescott 2M, главным отличие которого был увеличенный до 2 Мб размер кэша второго уровня. Такое увеличение повлекло за собой и увеличение количества транзисторов из которых состоит ядро процессора до 169 миллионов. Но новое ядро отличалось не только размером кэша – были добавлены и существенно доработаны функции работы с энергопотреблением, благодаря чему новые процессоры стали холоднее, чем их предшественники из 500-й серии. Также ядро Prescott 2M принесло в процессоры Pentium 4 набор команд EM64T – поддержку 64-битных вычислений. Позже технология EM64T перекочевала и в 500-ю линейку, где ее наличие определялось последней единицей в процессорном номере (например, Pentium 4 531). И естественно, что как топовое решение, процессоры 600-й линейки поддерживали функцию Execute Disable Bit и технологию Hyper-Threading. Все процессоры Prescott 2M принадлежащие к 600-й серии выпускались для платформы LGA775 и работали с шиной 800 МГц. Максимальной частоты в 3,8 ГГц достигли в ноябре 2005-го года.

Cedar Mill

Новый логотип Pentium 4 HT   Последнее ядро процессора Pentium 4 было представлено 16 января 2006-го года. Ядро с кодовым именем Cedar Mill конструктивно ничем не отличается от Prescott 2M кроме техпроцесса 65 нм. Во время выхода Cedar Mill, Intel занималась разработкой и доводкой архитектуры следующего поколения, первые процессоры на которой должны будут выйти спустя полгода, поэтому тратить ресурсы на модернизацию уходящей NetBurst не было никакого смысла. Единственной новой технологией появившейся в процессорах была аппаратная поддержка виртуализации VT. Но наиболее заметным отличием был новый дизайн логотипа процессора. Вместе с переходом на новый техпроцесс, Intel перерисовала логотипы для своих процессоров, оформив их в едином стиле. Честно говоря – мне старые логотипы нравились больше.
   Но, тем не менее, простой смены техпроцесса оказалось достаточно для того, чтобы кардинально преобразить процессор. Да, его производительность отличалась от Prescott 2M в пределах погрешности измерения, но существенно уменьшилось тепловыделение, и увеличился разгонный потенциал. И если второе было интересно ограниченному кругу пользователей, то более холодный процессор, а значит и тихий компьютер – оценили все.
   Процессоры Pentium 4 на ядре Cedar Mill выпускались для платформы LGA775, но совместимость с материнскими платами была ограниченной. Часто было необходимо обновление БИОСа. Работали на системной шине с частотой 800 МГц. Были выпущены модели с частотами от 3,0 до 3,6 ГГц. Последние процессоры Pentium 4 на ядре Cedar Mill были выпущены в августе 2007-го года.

Celeron D

Логотип Celeron D   Через несколько месяцев после перевода процессоров Pentium 4 на ядро Prescott, в июне 2004-го года, Intel представляет обновление своей бюджетной линейки Celeron. Новые процессоры, выпущенные на ядре Prescott-256, теперь называются по новому - Celeron D. Как можно понять из названия, в основе нового Celeron лежит ядро Prescott обладающее четвертью кэша второго уровня – 256 Кб. Но кроме увеличения кэш-памяти, новые процессоры отличаются от старых Celeron, также выросшей до 533 МГц частотой системной шины. Следует отметить, что если для Pentium 4 переход на ядро Prescott не принес никаких улучшений, то бюджетный Celeron, получив увеличенный в два раза кэш и ускоренную системную шину, показал вполне ощутимый прирост производительности в сравнении со своим предшественником, работая на одинаковых частотах. Прирост производительности составлял около 30% в зависимости от приложения.
   Первые процессоры Celeron D были выпущены для разъема Socket 478, но с самого начала маркировались процессорным номером. Для бюджетной линейки предназначались маркировки из 300-й серии. Были выпущены модели с частотами от 2,4 до 3,2 ГГц (номера от 320 до 350). Позже были представлены модели с частотами от 2,13 ГГц (Celeron D 310) до 3,33 ГГц (Celeron D 355).
   Позже, в сентябре 2004-го года, были представлены процессоры для  новой платформы LGA775. Некоторые модели Celeron D для Socket 478 поддерживали технологию Execute Disable Bit (к модельному номеру добавлялась буква J). Большинство моделей для LGA775 поддерживали 64-х битный набор команд EM64T.
   Некоторое время процессоры Celeron D выпускались как для новой платформы, так и для старой Socket 478. Со временем первые вытеснили с рынка вторые.
   В конце мая 2006-го года Intel переводит процессор Celeron D на последнее ядро семейства Pentium 4 - Cedar Mill-512. Исторически Celeron обладает четвертью кэша полноценного Pentium 4, а так как Cedar Mill содержит 2 Мб кэша, то и новому Celeron досталось аж 512 Кб. Неплохо! Частота системой шины не изменилась, и составляет все те-же 533 МГц. Новые процессоры поддерживали все доступные для Pentium 4 технологии, за исключением виртуальной многоядерности Hyper-Threading.
   Первыми были представлены модели с частотами 3,2 и 3,33 ГГц, а позднее модельная линейка была расширена процессорами с частотами 3,06 и 3,46 ГГц. Старшая в линейке модель с частотой 3,6 ГГц была выпущена в январе 2007-го года.
   Благодаря всем особенностям ядра Cedar Mill выпущенного с применением 65 нм. техпроцесса новые Celeron D стали лучшими бюджетными процессорами на архитектуре NetBurst. Но выпущены они были в то время, когда на прилавки поступили процессоры следующей архитектуры Intel Core 2, поэтому, несмотря на то, что они показывали неплохую для бюджетного решения производительность, уделом этих процессоров были максимально дешевые офисные компьютеры.

Intel Pentium D

Логотип Pentium D   В мае 2005-го года, следуя моде на многоядерность, Intel представляет новую линейку процессоров Pentium D. Где D очевидно означает Dual, то есть два процессора под одной крышкой. Собственно так оно и было. Ядро Smithfield, представляет из себя два процессорных ядра Prescott на одном куске кремния. Для взаимодействия обоих ядер с системной шиной, а также между собой, были добавлены новые блоки, но их влияние на получившееся ядро минимально. Для объединения было выбрано ядро Prescott 500-й серии, обладающее 1 Мб кэшем, но суммарное количество транзисторов в ядре все равно составляло огромные для своего времени 230 миллионов. Благодаря использованию последних ревизий ядра с улучшенными параметрами энергопотребления, Intel удалось «втиснуть» два горячих ядра Prescott в тепловой пакет LGA775. Хоть для этого и пришлось сильно пожертвовать частотами – так было выпущено всего три модели с частотами от 2,8 до 3,2 ГГц на частоте шины 800 МГц, которые обладали процессорными номерами от 820 до 840. Позже, в декабре 2005-го года, была представлена бюджетная модель линейки, Pentium D 805 работающая на частоте 2,66 ГГц с частотой системной шины 533 МГц. Процессоры Pentium D были лишены технологии Hyper-Threading. Возможно это было сделано с целью немного уменьшить тепловыделения ядра, но скорее всего в этом решении было больше маркетинговой составляющей.
Под крышкой Pentium D Smithfield

   В плане производительности тоже было не все однозначно. В приложениях поддерживающих многопоточность процессоры Pentium D действительно обеспечивали высокую производительность обходя своих более скоростных одноядерных собратьев с виртуальной многоядерностью. Но во время своего выхода, многопоточность и многоядерность только шла в широкие массы, и специализированного ПО было крайне мало. Большинство офисных и игровых приложений были строго однопоточны, и для их работы предпочтительнее оказывался более быстрый одноядерный процессор, с большим объемом кэш памяти.
Под крышкой Pentium D Presler   В январе 2006-го года, вместе с переводом процессоров Pentium 4 на 65 нм. ядро Cedar Mill, Intel также обновила и свою двухъядерную линейку Pentium D. Новое ядро получило кодовое имя Presler. Но назвать его полноценным ядром сложно, ввиду того, что под процессорной крышкой располагались два отдельных ядра Cedar Mill. Такой подход давал большую гибкость и меньший процент брака готовой продукции. Можно было перед упаковкой предварительно проверять ядра, и сортировать – с ошибками в кэш-памяти – отключать часть кэша и маркировать как Celeron D, более высокочастотные – маркировать как Pentium 4, чипы с меньшим тепловыделением, или ошибками в  блоках Hyper-Threading могли быть использованы в новых Pentium D. Таким образом, можно более полноценно использовать произведенные чипы. Так как ядро Cedar Mill обладает 2 Мб кэш-памяти второго уровня, то и новый Pentium D прибавил в объеме кэша. Также выросло колличество транзисторов под процесорной крышкой до 376 миллионов.
   Были представлены 4 модели с  номерами от 920 до 950. Первые три повторяли характеристики прошлого поколения, с частотами от 2,8 до 3,2 ГГц. Частота старшей двухъядерной модели составила 3,4 ГГц.
   С точки зрения производительности, дополнительный размер кэша не дал большого прироста, но уменьшившееся тепловыделение позволило во первых, выпустить еще одну модель с большей на 200 МГц частотой, чем в прошлой линейке, и что важнее уменьшить энергопотребление и уровень шума компьютера.

Pentium Extreme Edition

Логотип Intel Pentium 4 Extreme Edition   В конце 2003-го года, после представления главным конкурентом Intel, компанией AMD, своих процессоров на архитектуре Athlon 64, для сохранения лидирующего положения в сегменте высокопроизводительных игровых процессоров, Intel запускает новую линейку Intel Pentium 4 Extreme Edition. Это были экстремально дорогие процессоры стоимостью около 1000 долларов, недоступные в широкой продаже. Особенностью линейки было то, что в ней активным был только один процессор, с выходом новой модели – старая снималась с продажи.
   Первый процессор их семейства Extreme Edition, работающий на частоте 3,4 ГГц был представлен 3 ноября 2003-го года, и представлял собой серверную модификацию ядра Northwood имеющую кодовое имя Gallatin, и отличающуюся от своих десктопных собратьев наличием кэш-памяти третьего уровня размером 2 Мб. Благодаря наличию кэша третьего уровня, количество транзисторов в ядре увеличилось с 55 млн. у оригинального Northwood, до 178 млн. Все остальные характеристики процессоров совпадали – работа на шине 800 МГц и поддержка технологии Hyper-Threading. В отличии от серверных процессоров, Pentium 4 Extreme Edition имел привычный конструктив Socket 478 и работал в тех-же материнских платах, что и обычные Pentium 4.
   В плане скорости все было очень неоднозначно – преимущество перед обычным Pentium 4 с одинаковой частотой составляло до 10%, а часто и того меньше.
   Спустя год после представления первого Pentium 4 Extreme Edition, Intel делает обновление в линейке, выпуская 15 ноября 2004-го года, модель с частотой 3,46 ГГц. Несмотря на то, что десктопные процессоры вовсю переводились на 90 нм. ядро Prescott, для максимально производительного решения выбрали все ту-же производную от старого Northwood – выпущенную по 0,13 мкм. техпроцессу адаптацию серверного ядра Gallatin. Главным отличием от прошлого процессора в линейке было увеличение частоты системной шины до 1066 МГц. Также продолжая уход со старой платформы Socket 478, новый процессор выпускался для новой платформы LGA775.
   Даная модель получилась «провальной» - ее производительность в подавляющем большинстве тестов оказалась ниже, чем у простого Pentium 4  с частотой 3,6 ГГц который стоил вдвое дешевле.
   С выходом процессорного ядра Prescott 2M, Intel наконец-то переводит свой топовый процессор на новое ядро, представляя 21 февраля 2005-го года Pentium 4 Extreme Edition с частотой 3,73 ГГц. От обычных процессоров 600-й серии он отличается только частотой системной шины 1066 МГц. Чего было явно мало, для того чтобы оправдать свою цену в 1000 долларов.
Логотип Pentium eXtreme Edition 840   Спустя несколько месяцев, в апреле 2005-го года, Intel кардинально обновляет свою экстремальную линейку. Во первых, теперь из названия пропала цифра 4 – полное название процессор звучит как Pentium eXtreme Edition 840. Также обновился и логотип процессорной линейки. Из него также пропали все элементы привычного логотипа Pentium 4.
   Новый процессор, как можно догадаться по названию, оказался очень похож на Pentium D 840 – то-же процессорное ядро Smithfield, являющееся двумя ядрами Prescott на одном куске кремния. Та-же частота в 3,2 ГГц, при частоте системной шины 800 МГц. Вся «экстремальность» была в активированной функции виртуальной многоядерности Hyper-Threading. Таким образом, впервые, пользователи настольного компьютера смогли получить в своем компьютере 4 потока. Правда для ПО 2005-го года, эта возможность была практически бесполезной. Большинство приложений только учились использовать два потока, поэтому прибавку от еще двух могло показать разве что специализированное ПО. В большинстве случаев, новый процессор уступал своему одноядерному предшественнику работающему на гораздо большей частоте и более быстрой системной шине.
Новый логотип Pentium eXtreme Edition   В первых числах января 2006-го года, Intel в последний раз обновила свою линейку экстремальных процессоров сразу двумя моделями Pentium Extreme Edition 955 и Pentium Extreme Edition 965 работающими на частотах 3,46 и 3,73 ГГц. Эти процессоры были основаны на новом 65 нм. двухядерном дизайне Presler. Но в отличие от прошлого процессора – не повторяли существующие модели. Главным отличием от моделей Pentium D была частота системной шины 1066 МГц. Новые процессоры объединили преимущества процессорного ядра Presler, такие как низкое энергопотребление и высокий частотный потенциал,  с уникальными особенностями линейки Pentium Extreme Edition такими как повышенная до 1066 МГц частота системной шины и активная технология Hyper-Threading. Благодаря последней ревизии ядра, старшая модель смогла вплотную приблизиться к частоте старшего Pentium 4, став таким образом самым быстрым процессором с архитектурой NetBurst.
   Модель Pentium Extreme Edition 965 была отличным процессором, который просто появился слишком поздно. Прогрессивная компьютерная общественность (для которой и был предназначен данный процессор) была в ожидании принципиально новой архитектуры Intel Core 2.


Итоги

   Процессоры с архитектурой NetBurst были представлены в конце 2000-го года, и почти 6 лет являлись основой предложения Intel среди процессоров для настольных ПК, ноутбуков, рабочих станций и серверов. Стартовав с высокопроизводительного процессора Pentium 4, со временем на NetBurst была переведена и бюджетная линейка Celeron. Впервые была введена Hi-End линейка Extreme Edition. Сменив четыре техпроцесса и два разных ядра в рамках одной архитектуры, выпуск процессоров с архитектурой NetBurst продолжался до середины 2007-го года. Но в последний год, после выхода на рынок архитектуры следующего поколения Intel Core 2, процессоры NetBurst занимали место в бюджетном сегменте.
   Можно-ли считать NetBurst однозначным провалом компании Intel? Если вспомнить ранние планы, в которых указывались частоты до 10 ГГц, а потом посмотреть на реально достигнутые 3,8 ГГц – то да, можно. Но если посмотреть боле широко, в исторической ретроспективе – то все получается не столь однозначно.
   В первое время все шло по плану. Willamette не бил рекорды производительности, но осуществил переход на новую архитектуру и платформу Socket 478. Потом было отлично масштабируемое ядро Northwood, частоты которого удалось увеличить более чем в полтора раза с 2,0 до 3,46 ГГц. Именно это ядро раскрыло весь потенциал архитектуры, нарастив частоту системной шины и представив миру концепцию Hyper-Threading. 
   А вот потом что-то пошло не так. И мое мнение, что причиной тому было сразу несколько факторов. Причем как внутренних проблем Intel, так и внешних факторов процессорного рынка 2003-2004-х годов. Внешним фактором был выхода крайне удачного продукта Athlon 64 у основного конкурента. Внутренним – серьезные проблемы с освоением 90нм. техпроцесса. После выхода Prescott многих не покидало впечатление, что ядро было выпущено сырое. Рынок ждал ответа Intel на новый флагман от AMD, а ответ не был готов. Пришлось на скорую руку выпускать то, что было. Причем сам по себе Prescott не был такой плохой – это стало понятно два года спустя, после освоения 65 нм. техпроцесса, и выпуска ядра Cedar Mill, которое ничем не отличалось от Prescott. Плохой был не рестайлинг архитектуры, а именно его реализация в железе. Начальным планам покорить 4,5 ГГц не суждено было осуществиться. Позже стало известно, что причиной этой неудачи были большие токи утечки транзисторов, на 90 нм. техпроцессе Intel. Именно они вызывали дикое энергопотребление и нагрев, а также не давали наращивать частоты.
   Когда, с переходом на следующий 65 нм. техпроцесс, у Intel появилась возможность дальше развивать NetBurst, уже было поздно – так как уже была почти готова новая, более производительная архитектура. По моему мнению, если-бы Intel продолжала оптимизировать ядро Cedar Mill, то вполне реально было-бы выпустить двухъядерные процессоры с частотами около 4,5-5 ГГц под конец его жизненного цикла. Но все случилось так, как случилось, и Intel вернулась к низкочастотной, но более эффективной архитектуре.
   Несмотря на итоговую неудачу и уход с рынка NetBurst – это было неплохое время. Intel выпускал уникальный продукт, не похожий ни на что иное на рынке. Пусть он был не лишен недостатков (а скорее полон ими), но тем интереснее было читать обзоры и сравнения с конкурентами.

P.S. Во времена Pentium 4, мне категорически не нравилась архитектура NetBurst. Я считал подход AMD выпускавшей более эффективные, но менее частотные процессоры – концептуально правильнее. Но ведь тем интереснее было сравнивать, как решаются одинаковые задачи различными подходами…

Комментариев нет:

Отправить комментарий