FAQ по видеокартам GeForce: что следует знать о графических картах?
Ядро CUDA, потоковый процессор, блок шейдеров — все это синонимы вычислительного блока GPU, который выполняет расчет данных. NVIDIA по традиции называет их ядрами CUDA, где CUDA расшифровывается как Compute Unified Device Architecture. Ядра CUDA отличаются от ядер процессора, они намного менее сложные и имеют высокую степень специализации под обрабатываемые данные. GPU сегодня умеют намного больше, чем выполнять рендеринг графики через конвейер, поэтому унификация под названиями потоковый процессор или унифицированный блок шейдеров вполне обоснована.
Потоковый процессор обрабатывает непрерывный поток данных, которых насчитываются многие сотни, причем они выполняются параллельно на множестве потоковых процессоров. Современные GPU оснащаются несколькими тысячами потоковых процессоров, они отлично подходят для задач с высокой степенью параллельности. Это и рендеринг графики, и научные расчеты. Что, кстати, позволило GPU закрепиться в серверном сегменте в качестве вычислительных ускорителей.
Впрочем, потоковые процессоры — довольно общий термин, на практике у современных GPU все сложнее. GPU могут выполнять как вычисления с плавающей запятой (FP), так и целочисленные (INT) с различной точностью. Для графики важнее всего вычисления FP32 и INT32 с 32-битной точностью. В случае научных расчетов все более важными являются расчеты с более высокой точностью, а именно FP64. Поэтому в GPU появились выделенные вычислительные блоки для типа данных FP64. Впрочем, далеко не для всех расчетов нужна точность с 32 и 64 битами. Были разработаны способы выполнения менее точных вычислений на блоках INT32, например, одновременное выполнение операций над двумя 16-битными целыми числами.
Еще одним шагом дальше можно назвать интеграцию ядер Tensor в архитектуру NVIDIA Ampere, которые способны эффективно вычислять менее сложные числа INT8 и INT4, но об этом мы поговорим чуть позже.
В составе GPU GA102 имеются семь кластеров Graphics Processing Clusters (GPC) с 12 потоковыми мультипроцессорами Streaming Multiprocessors (SM) каждый. Но на видеокартах GeForce RTX 3090 и GeForce RTX 3080 активны не все SM. GA102 GPU теоретически содержит 10.752 блоков FP32 (7 GPC x 12 SM x 128 блоков FP32). Но у GeForce RTX 3090 два SM отключены, поэтому видеокарта предлагает «всего» 10.496 блоков FP32. Такой подход повышает выход годных чипов NVIDIA, поскольку наличие одного-двух дефектных SM не приводит к отбраковке кристалла.
В случае GeForce RTX 3080 один кластер GPC полностью отключен, поэтому на GA102 GPU остаются шесть GPC, но только четыре из них содержат полные 12 SM, два ограничены десятью SM. Что дает в сумме 8.704 блока FP32 в составе 68 SM.
NVIDIA масштабирует архитектуру Ampere с видеокарты GeForce RTX 3060 вплоть до GeForce RTX 3090. Ниже представлен обзор видеокарт GeForce RTX 30:
GeForce RTX 3090 | GeForce RTX 3080 Ti | GeForce RTX 3080 | GeForce RTX 3070 Ti | |
GPU | Ampere (GA102) | Ampere (GA102) | Ampere (GA102) | Ampere (GA104) |
Число транзисторов | 28 млрд. | 28 млрд. | 28 млрд. | 17,4 млрд. |
Техпроцесс | 8 нм | 8 нм | 8 нм | 8 нм |
Площадь кристалла | 628,4 мм² | 628,4 мм² | 628,4 мм² | 392,5 мм² |
Число FP32 ALU | 10.496 | 10.240 | 8.704 | 6.144 |
Число INT32 ALU | 5.248 | 5.120 | 4.352 | 3.072 |
Число SM | 82 | 80 | 68 | 48 |
Ядра Tensor | 328 | 320 | 272 | 192 |
Ядра RT | 82 | 80 | 68 | 48 |
Базовая частота | 1.400 МГц | 1.365 МГц | 1.440 МГц | 1.580 МГц |
Частота Boost | 1.700 МГц | 1.665 МГц | 1.710 МГц | 1.770 МГц |
Емкость памяти | 24 GB | 12 GB | 10 GB | 8 GB |
Тип памяти | GDDR6X | GDDR6X | GDDR6X | GDDR6X |
Частота памяти | 1.219 МГц | 1.188 МГц | 1.188 МГц | 1.188 МГц |
Ширина шины памяти | 384 бит | 384 бит | 320 бит | 256 бит |
Пропускная способность памяти | 936 Гбайт/с | 912 Гбайт/с | 760 Гбайт/с | 608 Гбайт/с |
TDP | 350 Вт | 350 Вт | 320 Вт | 290 Вт |
GeForce RTX 3070 | GeForce RTX 3060 Ti | GeForce RTX 3060 | |
GPU | Ampere (GA104) | Ampere (GA104) | Ampere (GA106) |
Число транзисторов | 17,4 млрд. | 17,4 млрд. | 12 млрд. |
Техпроцесс | 8 нм | 8 нм | 8 нм |
Площадь кристалла | 392,5 мм² | 392,5 мм² | 276 мм² |
Число FP32 ALU | 5.888 | 4.864 | 3.584 |
Число INT32 ALU | 2.944 | 2.432 | 1.792 |
Число SM | 46 | 38 | 28 |
Ядра Tensor | 184 | 152 | 112 |
Ядра RT | 46 | 38 | 28 |
Базовая частота | 1.500 МГц | 1.410 МГц | 1.320 МГц |
Частота Boost | 1.730 МГц | 1.665 МГц | 1.780 МГц |
Емкость памяти | 8 GB | 8 GB | 12 GB |
Тип памяти | GDDR6 | GDDR6 | GDDR6 |
Частота памяти | 1.725 МГц | 1.750 МГц | 1.875 МГц |
Ширина шины памяти | 256 бит | 256 бит | 192 бит |
Пропускная способность памяти | 448 Гбайт/с | 448 Гбайт/с | 360 Гбайт/с |
TDP | 220 Вт | 200 Вт | 170 Вт |
Одновременное выполнение операций с целыми числами и числами с плавающей запятой
Как мы уже упоминали, вычислительные блоки FP32 могут работать в режиме 2x FP16, то же самое касается INT16. Чтобы увеличить вычислительную производительность и сделать ее более гибкой, в архитектуре NVIDIA Turing появилась возможность одновременного расчета чисел с плавающей запятой и целых чисел. Конечно, подобная возможность сохранилась и в архитектуре Ampere. NVIDIA проанализировала данные вычисления в конвейере рендеринга в десятках игр, обнаружив, что на каждые 100 расчетов FP выполняется примерно треть вычислений INT. Впрочем, значение среднее, на практике оно меняется от 20% до 50%. Конечно, если вычисления FP и INT будут выполняться одновременно, то конвейеру придется иногда «подтормаживать» в случае взаимных связей.
Соотношение 1/3 INT32 и 2/3 FP32 отражено в структуре Ampere Streaming Multiprocessor (SM), составляющем элементе архитектуры Ampere. NVIDIA удвоила число вычислительных блоков FP32 на каждый SM. Вместо 64 блоков FP32 на SM, их теперь насчитывается 128. Плюс 64 блока INT32. Теперь на квадрант SM насчитывается два пути данных, некоторые могут работать параллельно. Один из путей данных содержит 16 блоков FP32, то есть может выполнять 16 вычислений FP32 за такт. Второй путь данных содержит по 16 блоков FP32 и INT32. Каждый из квадрантов SM может выполнять либо 32 операции FP32, либо по 16 операций FP32 и INT32 за такт. Если же брать SM целиком, то возможно выполнение 128 операций FP32 или по 64 операции FP32 и INT32 за такт.
Параллельное выполнение продолжается и на других блоках. Например, ядра RT и Tensor могут работать параллельно в конвейере рендеринга, что снижает время, требующееся на рендеринг кадра.
Под термином «потоковые процессоры» сегодня подразумевают количество вычислительных блоков GPU, хотя следует помнить, что сложность вычислений бывает разной. Поэтому термин используется гибко, но обычно все равно описывает вычислительные блоки.
Что такое ядра видеокарты CUDA?
CUDA является аббревиатурой от одной из запатентованных технологий Nvidia: Compute Unified Device Architecture. Его цель? Эффективные параллельные вычисления.
Одиночное ядро CUDA аналогично ядру ЦП, основное отличие в том, что оно менее изощренное, но реализовано в большем количестве. Обычный игровой процессор имеет от 2 до 16 ядер, но количество ядер CUDA исчисляется сотнями, даже в самых низких современных видеокартах Nvidia GeForce. Между тем, у высококлассных карт сейчас их тысячи.
Строение графических ядер CUDA
В чем разница между CPU и GPU?
CPU и GPU — это процессоры. Между ними есть много общего, однако сконструированы они были для выполнения разных задач.
1. GPU — это графический процессор (англ. graphics processing unit).
Основная функция — рендеринг 3D-графики и визуальных эффектов.
2. CPU — это центральный процессор (англ. central processing unit).
Основная функция — выполнение цепочки инструкций за максимально короткое время.
В чём отличие CPU от GPU?
1. Доступ к памяти. В GPU он связанный и легко предсказуемый — если из памяти читается элемент текстуры, то через некоторое время настанет очередь и соседних текселов. С записью ситуация аналогичная.
2. Размер кэш-памяти. Графическому процессору, в отличие от универсальных процессоров, не нужна кэш-память большого размера. Для текстур требуются лишь 128–256 килобайт.
3. Поддержка многопоточности. Центральный процессор исполняет 1–2 потока вычислений на одно ядро, а графический процессор может поддерживать несколько тысяч потоков на каждый мультипроцессор, которых в чипе несколько штук. И если переключение с одного потока на другой для CPU стоит сотни тактов, то GPU переключает несколько потоков за один такт.
4. Архитектура. В CPU большая часть площади чипа занята под буферы команд, аппаратное предсказание ветвления и огромные объемы кэш-памяти, а в GPU большая часть площади занята исполнительными блоками.
Питание для GPU
Встроенные графические процессоры не нуждаются в дополнительном питании, однако дискретные представители требуют более мощного блока питания. Офисные видеокарты будут нормально функционировать и с блоком в 450 ватт. Для съемных графических ускорителей потребуется блок питания более 500 ватт. При грамотном его подборе можно полностью раскрыть потенциал видеокарты. Тем более что система охлаждения дискретной видеокарты будет лучше функционировать при достаточном количестве электроэнергии.
Питание играет немаловажную роль. Без процессора графического ускорения невозможно вывести изображение на экран. Чтобы увидеть, как отображается видеокарта в системе, достаточно зайти в панель управления и открыть вкладку «Видеоадаптеры». Если отображается надпись «Устройство не опознано», то необходимо установить драйвера для своего графического процессора. После установки драйверов модель карты будет корректно отображаться в системе.
В этом небольшом обзоре будет не только дан ответ на вопрос о том, что лучше — «Селерон» или «Пентиум», но и приведены современные спецификации таких микропроцессоров для ПК. Также будут даны общие рекомендации относительно их использования. В .
Винчестер — важный компонент системы. Он работает над сохранением личных данных и тех, которые производит ОС. Но в системе с любым элементом возникают проблемы. Не стал исключением жесткий диск. Греется он по разным причинам, с которыми и предстоит .
Если на заре развития компьютерной и мобильной техники объединение в локальные сети производилось за счет проводного подключения, то сегодня наибольшей популярностью пользуются беспроводные технологии. К тому же, и в терминологии, описывающей .
USB-модемы от операторов сотовой связи давно уже перестали быть чем-то из ряда вон выходящим и завоевали небывалую популярность среди интернет-серферов, благодаря простоте настройки и использования. Компания МТС предоставляет пользователям .
В этом обзоре будут рассмотрены наиболее бюджетные модели ЦПУ для стационарных персональных компьютеров от компании «Интел» и будет дан ответ на вопрос: «Что лучше: Celeron или Pentium?» Эти два семейства чипов имеют скромные технические .
Представленный далее материал посвящен теме, изучающей режим отладки на смартфонах под управлением операционной системы Android. В статье будет подробно разобрано само понятие такой функции, ее основное предназначение, а также пошаговая инструкция по включению.
Литиевая батарейка, располагающаяся на материнской плате, отвечает за работу компьютера с пространством. Говоря иначе, если ее заряд полностью иссякнет, придется каждый раз при включении ПК, осуществлять установку соответствующей даты и времени. Чтобы этого избежать, необходимо знать, как вытащить батарейку из материнской платы компьютера.
Материал посвящен достаточно частой проблеме, которая в равной степени возникает как на мобильных телефонах с операционной системой Android, так и на устройствах под управлением IOS. Далее будут разобраны основные причины, приводящие к возникновению этой ситуации, а также способы их решения.
В рамках этого обзора будут рассмотрены наиболее распространенные на текущий момент модификации процессорных разъемов Socket Intel. Этот именитый производитель вычислительной техники с завидной регулярностью обновляет номенклатуру своей продукции. Поэтому практически каждые два года у него появляется новый сокет, который несовместим с ранее существовавшим.
В этой статье будет представлено несколько разновидностей материнских плат, которые поддерживают разъем сокета 771. Также из статьи можно узнать, какие процессоры подойдут для этих материнских плат, и способ установки процессора Xeon в сокет 775.
Как узнать, какая видеокарта (GPU) установлена на ПК
В се компьютеры оснащены графическим оборудованием, которое обрабатывает все, начиная с рисования на рабочем столе и декодирования видео и заканчивая рендерингом требовательных компьютерных игр. Большинство современных ПК имеют графические процессоры (GPU) производства Intel, NVIDIA или AMD.
В то время как CPU и RAM Вашего компьютера также важны, GPU обычно является наиболее важным компонентом, когда речь заходит о компьютерных играх. Если у Вас недостаточно мощный графический процессор, Вы не сможете играть в новые компьютерные игры, или Вам, возможно, придется играть в них с более низкими графическими настройками. Некоторые компьютеры имеют «встроенную» или «интегрированную» графику с низким энергопотреблением, в то время как другие имеют мощные «выделенные» или «дискретные» видеокарты (иногда называемые видеокартами). Вот как можно увидеть, какое графическое оборудование установлено на Вашем ПК с Windows.
В Windows 10 Вы можете проверить информацию о графическом процессоре и информацию об использовании прямо из диспетчера задач. Щелкните правой кнопкой мыши панель задач и выберите «Диспетчер задач» или нажмите Ctrl + Shift + Esc, чтобы открыть его.
Нажмите на вкладку «Производительность» в верхней части окна — если Вы не видите вкладки, нажмите «Подробнее». Выберите «Графический процессор 0» на боковой панели. Производитель графического процессора и название модели отображаются в верхнем правом углу окна.
В этом окне Вы также увидите другую информацию, например объем выделенной памяти на Вашем графическом процессоре. Диспетчер задач Windows 10 отображает использование Вашего графического процессора здесь, и Вы также можете просмотреть использование графического процессора в зависимости от приложения.
Если Ваша система имеет несколько графических процессоров, Вы также увидите «Графический процессор 1» и так далее. Каждый представляет отдельный физический графический процессор.
В более старых версиях Windows, таких как Windows 7, эту информацию можно найти в средстве диагностики DirectX. Чтобы открыть его, нажмите Windows + R, введите «dxdiag» в появившемся диалоговом окне «Выполнить» и нажмите Enter.
Перейдите на вкладку «Монитор» и посмотрите на поле «Название» в разделе «Устройство». Другие статистические данные, такие как объем видеопамяти (VRAM), встроенной в Ваш графический процессор, также перечислены здесь.
Если в Вашей системе установлено несколько графических процессоров, например, в ноутбуке с графическим процессором Intel с низким энергопотреблением для использования от батареи и мощным графическим процессором NVIDIA для использования при подключении и играх, Вы можете управлять тем, какой графический процессор будет использоваться в приложении Параметры Windows 10. Эти элементы управления также встроены в панель управления NVIDIA.