Ли седоль против компьютера

Прощальный матч чемпиона мира по игре го

Сегодня в Корее завершился матч Ли Седоля, одного из сильнейших в мире мастеров игры го, с программой Handol. Ли Седоль проиграл со счётом 1:2.

Ли Седоль выиграл первую партию на двух камнях форы (это примерно соответствует форе в пешку в шахматах). Проиграл следующую игру на равных (по условиям матча игра проходила на плавающей форе). А в заключительной игре проиграл на двух камнях.

30-го ноября вышла наша статья на Хабре в которой мы подробно рассказали про революцию ИИ в компьютерном Го, где еще совсем недавно машина не могла справиться с человеком даже средней силы игры, не говоря уже о профессионалах.

Все три партии матча детально разобраны на русском языке на Ютуб канале Бадук-1. А здесь хотелось бы подвести некоторые итоги.

В игре Го, в отличии от шахмат, не была распространена командная подготовка к турнирам. Тренер всегда считался необходимым только начинающим. Все сильнейшие мастера в мире одиночки. К услугам тренера, а тем более целого тренерского штаба, они никогда не прибегали. В партиях Ли Седоля обнаружилось полное отсутствие домашней подготовки — он ничем не смог удивить программу, заставить её ошибиться в дебютах. А в отличии от матча с AlphaGo, у Ли Седоля была возможность заранее протестировать эту программу и её аналоги. Думаю, что в Го, как это давно принято в шахматах, настало время обзавестись командой, которая будет разбирать партии конкурентов, анализировать новинки, искать подводные камни. В игре Го ушло то время, когда можно было разыгрывать начало партии без подготовки, полагаясь на старые знания и свою интуицию.

Для меня стала понятна еще одна причина ухода Ли Седоля из профессионального Го. Похоже, что он терпеть не может компьютерные программы, играющие в Го. Искренне их ненавидит. Фактически они разрушили его жизнь. Громко насмехаясь, сняли с головы корону. Думаю, что именно по этой причине он не может заставить себя с утра до вечера анализировать дебютные схемы в обнимку с программой. А если полагаться только на старые знания, то на плаву нынче не удержаться. И Ли Седоль решил, что лучше вовремя уйти на пенсию, чем быть вынесенным вперёд ногами молодыми профессионалами, которые с утра до вечера тренируются с машинами.

Ли Седоль выиграл четвёртую игру у системы AlphaGo

Сегодня прошла четвёртая партия матча Ли Седоль — AlphaGo. Играют известный 33-летний обладатель девятого профессионального дана и система компьютерного го от подразделения DeepMind компании Google. Сегодня Седоль выиграл.

AlphaGo — продукт от DeepMind, который комбинирует метод Монте-Карло с нейросетями политики и ценности. Играющая в Сеуле система является результатом двух лет работы, в том числе машинного обучения нейросетей на 160 тысячах партий с сервера KGS и в играх против самой себя. В прошлом октябре AlphaGo уже выигрывала у сильного игрока. Это был трехкратный европейский чемпион Фань Хуэй, который проиграл искусственному интеллекту в пяти из пяти партий.

Считается, что в Европе уровень владения го ниже, чем на родине игры, в Азии. Показать явное превосходство должен матч против Ли Седоля. Профессионал уже проиграл в трёх играх из пяти. Теперь ясен и исход серии, и судьба призового миллиона долларов — он уйдёт на благотворительность и организациям по развитию го. В последних двух партиях определится глубина поражения команды людей.

Огромный плюс победы человека: мы увидели, как в интерфейсе AlphaGo выглядит признание поражения.

Вчера, после третьего поражения человека, одной из тем пресс-конференции был вопрос, есть ли у AlphaGo слабые места. Седоль упомянул, как чувствовал, что они есть. Он извинился перед корейской нацией и сообществом игроков го за показанный результат.

Легко понять его напряжение. Го — популярная в Корее игра, по некоторым оценкам в неё играют около 8 миллионов человек. В Южной Корее новости о матче выходят на первые полосы газет. Серьёзность происходящего для Google показывают фигуры наблюдателей. Игры посещают бывший глава Google Эрик Шмидт, сооснователь поискового гиганта Сергей Брин и один из важных инженеров компании Джефф Дин. Последний помогал Google прокладывать оптический канал в отель Four Seasons, в котором проходит матч. Канал нужен для связи с дата-центрами компании, где на сотнях процессорных ядер и видеоускорителей запускается AlphaGo.

Человек играл белыми, то есть у ИИ было преимущество в виде хода первым. Как и в предыдущих играх, Седоль исчерпал время раньше оппонента. То есть в какой-то момент человек был вынужден тратить всего по минуте на ход. В свою очередь система AlphaGo хорошо распоряжалась временем — это результат добавления нейросети, которая помогает управлять им.

78 ход белых оказался отличным. Возможно, Седоль действительно нащупал слабое место компьютерной системы. AlphaGo ответила слабо. Как пишет глава DeepMind Демис Хассабис, на 79 ходу система допустила ошибку, но поняла это только на 87 ходу. После этого ИИ запутался.

AlphaGo начала делать откровенно слабые и ужасные ходы. Система признаёт поражение, когда оценка шанса победы падает ниже 20 процентов. Об этом инженер Google Дэвид Сильвер напомнил во время перерыва, который взял Ли Седоль. Сильвер отказался комментировать серию невнятных ходов системы. Игра продолжилась, и Седоль всё так же был вынужден работать в условиях недостатка времени. ИИ допустил ещё один промах, а чуть позже признал поражение. Результатом противостояния на 4,5 часа и 180 ходов стала победа человека. Седоль заявил, что его никогда не поздравляли так сильно за всего лишь один выигрыш.

Игр будет проведено пять, и счёт 3–1 уже поставил точку в вопросе о победителе. Но для оценки силы системы важен общий результат матча. Последняя, пятая партия пройдёт во вторник. Как и прошлые четыре, она будет транслироваться на канале DeepMind на YouTube. Интересно, что в октябре Фань Хуэй тоже выигрывал у AlphaGo, но только в одной из пяти неформальных игр.

Го — древняя восточноазиатская логическая игра. Каждому из двух игроков нужно отгородить камнями своего цвета территорию как можно большего размера. Исследователей искусственного интеллекта в го привлекает сложность: позиций слишком много, чтобы перебрать их. Компьютерные системы давно подчинили себе и шашки, и шахматы. К примеру, с 2005 года лучшие из людей проигрывают лучшим из компьютерных систем по игре в шахматы. Системы компьютерного го есть, но играют они на уровне любителей. До появления AlphaGo эксперты считали, что игра го останется неприступной ещё десяток лет.

Кто здесь альфа

Многие СМИ, писавшие еще о первой победе над Фанем Хуеем, называют AlphaGo нейросетью. Это справедливо, но только отчасти. На самом деле AlphaGo — это гибридная система, где одновременно используется и иерархический поиск Монте-Карло, и новые для подобных систем нейросети.

Интересно, что гибридность AlphaGo разные комментаторы интерпретируют очень по-разному. Либо как очередную убедительную победу нейросетей и глубокого обучения над традиционным формальным подходом к искусственному интеллекту (ИИ), самым известным сторонником которого был Марвин Минский. Либо, наоборот, как признак ограниченности «чистых» нейросетей (последняя точка зрения интересно изложена здесь).

Действительно, последняя громкая победа глубокого обучения в играх, к которой, к слову, также приложил руку Демис Хассабис, была связана с использованием «чистых» нейростей. Речь идет о создании системы ИИ, которая смогла научиться играть в игры ATARI без использования каких-либо инструкций или сложной ручной настройки. Тогда в качестве данных для обучения программа получала только изображение игрового монитора и результат игры: победа или проигрыш. Имея эти данные, программа могла управлять игрой, например, нажимать на рычаги в пинболе. Оказалось, что длительное обучение с подкреплением без какого-либо вмешательства человека может вывести ИИ в подобной игре на уровень человека или даже выше.

Однако, такой «чисто сетевой» подход не сработал с го. Вместо него команде Демиса Хассабиса пришлось применить гибридную архитектуру, сочетающую мощь нейросетей и традиционный метод Монте-Карло.

Как была получена эта архитектура? Инженеры Deepmind начали с создания нейросети для предсказания наиболее вероятного хода на основе базы сыгранных партий человек-против-человека. Это сверточная нейросеть из 13 слоев, очень похожая на те, которые используются для анализа изображения и распознавания символов. Вводные данные для нее, это, фактически, просто картинка положения камней на доске — 19 на 19 пикселей. «Сверточная» в применении к нейросети означает, что в ней используется математическая операция свертки при переходе от слоя к слою, то есть на каждом уровне по полному изображению пробегает маленькое окно, видимое в котором передается на следующий «нейрон» нейросети.

Главное преимущество нейросетей заключается в том, что они позволяют достигать очень высоких уровней абстракции, вычленяя из изображений их, как бы сказать. чисто абстрактные черты. Например, если нейросеть обучена распознаванию котиков, то в ее первый слой просто загружается изображение, а последующие слои обрабатывают его примерно так: второй распознает контрастность пикселей, третий наличие линий, четвертый их ориентацию, пятый мохнатость, шестой «ушастость», а седьмой и последний — «кóтовость». Важно понимать, что это очень условное представление о нейросетях — никто их заранее не программирует и не знает, что и как распознает данный слой. Как раз наоборот: все это происходит само собой по мере обучения. Суть аналогии в том, что уровень абстрактности очень сильно растет по мере движения от нижних к верхним слоям.

Так вот, на первом этапе в Deepmind создали нейросеть, которая просто предсказывает наиболее вероятный ход, который сделал бы человек из данной позиции s. Результат ее работы это, фактически, поле для го с расставленными вероятностными коэффициентами. Эта нейросеть, SL (от supervised learning) затем была использована для того, чтобы играть против себя самой, совершенствуясь по мере обучения. Здесь был использован классический метод обучения с подкреплением: шаги, которые вели к победе, поощрялись и сеть уже не предсказывала поведение игрока-человека, а предсказывала то, какой ход чаще ведет к победе. Идентичная по архитектуре, но уже обученная игрой против самой себя, нейросеть получила название RL (от reinforcement learning).

Среднеквадратичная ошибка разных методов оценки успешности партии. У всех их она ожидаемо падает с ходом партии. Видно, что оценочная сесть гораздо точнее, чем случайный вариант метода Монте-Карло.

Ли седоль против компьютера

+7 (499) 444-90-36 Отдел заботы о пользователях

Москва, Ленинский проспект, дом 6, строение 20

Участник Skolkovo
Премии Рунета 2018, 2019, 2020

Пользуясь нашим сайтом, вы соглашаетесь с тем, что мы используем cookies

За два хода AlphaGo и Ли Седоль изменили будущее

Исторический матч по китайской игре го между одним из лучших игроков мира Ли Седолем и искусственным интеллектом AlphaGo завершился победой машины в четырех играх из пяти. Мы создали искусственный разум, и нам придется учиться у нашего собственного творения. Однако, действуя сплоченно, человек и машина способны совершать невозможное – прошедшая игра продемонстрировала это наглядно.

За два хода AlphaGo и Ли Седоль изменили возможное будущее

На этой неделе состоялся исторический матч между Ли Седолем (Lee Sedol), одним из лучших в мире игроков в китайскую стратегическую настольную игру го, и AlphaGo – системой с искусственным интеллектом, созданной группой исследователей в DeepMind (Лондонская лаборатория искусственного интеллекта, принадлежащая Google). В результате машина впервые смогла обыграть человека по итогам серии из пяти игр, одержав победу в четырех из пяти. Эксперты не ожидали победы искусственного интеллекта в эту древнюю и сложную игру, как минимум, еще лет десять.

Эта победа имеет большое значение, так как в AlphaGo используются технологии будущего. Они уже меняют работу таких компаний, как Google, Facebook, Microsoft и Twitter, и они могут заставить нас пересмотреть развитие разнообразных разработок – от робототехники до научных исследований. Особенно полно продемонстрирова ли развитие этих технологий, а также их возможное положительное влияние на человека два неординарных хода в этом матче.

Ход 37

Своим 37 ходом во второй игре матча система AlphaGo сбила с толку даже лучших игроков го в мире, включая Ли Седоля.

«Это очень странный ход,» – описывал происходящее один из комментаторов, чемпион го высшего класса. «Я подумал, это была ошибка,» – сказал второй комментатор.

Это ход изменил направление всей игры. После победы AlphaGo , во время пресс конференции, Ли Седоль был в недоумении от произошедшего.

«Вчера я был удивлен, – говорил он о своем проигрыше в первой игре матча. – Но сегодня у меня просто нет слов. Если вы посмотрите на ход этой игры, я признаю, это абсолютный проигрыш с моей стороны. С самого начала игры не было ни единого момента, когда бы я чувствовал, что лидирую».

Несмотря на разочарование от проигрыша, все, кто наблюдал за игрой в отеле Four Seasons в Сеуле, признавали красоту этого 37-го хода. Особенно восторжен был Фань Хуэй, трехкратный чемпион Европы по игре в го, уже соревновавшийся с AlphaGo в октябре и проигравший пять игр из пяти, – он не переставая говорил о безупречности этого решения машины.

На следующее утро ведущий исследователь проекта AlphaGo Дэвид Сильвер рассказал о том, как машина сделала этот ход. Изначально команда разработчиков научила систему играть в древнюю игру, используя глубокую нейронную сеть, то есть сеть аппаратного и программного обеспечения, которая имитирует сеть нейронов в человеческом мозге. Такая технология уже используется в таких онлайн сервисах как Google , Facebook и Twitter , помогая определять лица на фотографиях, распознавать голосовые команды на смартфонах, генерирует поисковые системы и многое другое. Если вы загрузите в систему достаточно фотографий лобстера – она научится его узнавать, таким же образом если вы загрузите в нее 30 миллионов ходов лучших игроков – она научится играть в го.

Но команда исследователей не остановилась на этом. Она использовала вторую технологию искусственного интеллекта, называемую подкреплением обучения. Настроив бессчетное количество матчей между слегка различными версиями AlphaGo , они заставили играть систему саму с собой, тем самым научив ее отслеживать, какие ходы являлись наиболее удачными.

« AlphaGo научилась открывать новые стратегии для себя, играя миллионы матчей между собственными нейронными сетями, и потому постепенно улучшалась,» – говорит Сильвер.

Далее ученые собрали все ходы этих матчей между машинами и внесли их во вторую нейронную сеть, которая заставляла систему изучать потенциальные результаты каждого хода и планировать игру на будущее.

Таким образом, сначала AlphaGo училась на ходах лучших игроков, далее на ходах, которые она делала во время игры «с собой». Она понимает, как играет человек, но умеет переносить игру на совершенно другой уровень. Как объяснил Сильвер, во время 37-го хода AlphaGo рассчитала, что имеется одна десятитысячная возможность, что человек сделает этот ход, но потом она использовала все свои знания и, рассчитав игру наперед, все равно решила сделать ход, который оказался гениальным.

Ход 78

Ли Седоль проиграл и третью игру, таким образом AlphaGo уже наверняка претендовала на приз в размере $ 1 млн. На этом этапе Седоль извинился за свои результаты, но набрался решимости добиться победы в четвертой игре, чтобы сохранить свое достоинство.

Несмотря на пессимистичные ожидания публики, Ли Седолю удалось все-таки совершить тот ход, который смог повернуть игру в его пользу. Как выяснилось после игры, система искусственного интеллекта ответила ужасным ходом и, проанализировав свои шансы на победу, через пару минут пришла к выводу, что шансов выиграть игру практически не осталось. Комментаторы назвали ход Седоля превосходным, предположив, что даже AlphaGo была застигнута им врасплох. Игроки го уже назвали этот ход «прикосновением бога», и он действительно демонстрирует оригинальность игрока. Но в дальнейшем AlphaGo опять восстановила свою лидирующую позицию.

Как утверждает куратор проекта DeepMind Lab Демис Хассабис, который представлял AlphaGo в течение семидневного матча, система не была готова к подобному ходу Седоля, так как не рассчитала, что человек сможет сделать этот ход. Опираясь на месяцы своих тренировок, AlphaGo вновь рассчитала одну десятитысячную вероятность такого развития событий – с такой вероятностью человек мог бы выполнить 37-й ход машины.

Симметрия этих двух ходов завораживает. Именно это следует вынести из соревнования машины и человека. Хассабис, Сильвер и вся команда разработчиков создали сверхчеловеческий интеллект. Но в то же время, он не безупречен. Система не способна на все, на что способен человек: она не может поддержать разговор, пройти школьный тест по естествознанию и не может претендовать на «прикосновение бога».

После этой серии игр Фань Хуэй и Ли Седоль признают, что игры с искусственным интеллектом помогли им самим взглянуть на многие вещи по-другому. Не только машина собирает знания после игры, но и люди учатся у этой компьютерной системы. Ведь неизвестно, сделал ли бы Ли Седоль свой 78-й ход, если бы не проиграл до этого трижды AlphaGo .

Го и машинное обучение

Позиция на доске для го

Последние семь дней в Сеуле проходил матч по игре го одного из лучших современных профессиональных игроков Ли Седоля и системы искусственного интеллекта AlphaGo, разработанной Google DeepMind. В первой партии Ли Седоль в начале имел преимущество, но, совершив неожиданно сильный ход, AlphaGo сумела переломить ситуацию и победить. Победой AlphaGo закончились вторая и третья партии, в четвертой победил Ли Седоль. В пятой партии борьба долгое время шла на равных, но небольшого преимущества хватило AlphaGo для победы. Итог матча показывает, что искусственный интеллект научился побеждать людей в игре, которая, как считалось, еще долго будет не по зубам компьютеру.

Хотя быстродействие компьютера, с которым он перебирает возможные ходы в поисках оптимального, превосходит скорость мышления человека, программа все равно не справляется с анализом всех возможных вариантов. Если в шашках число возможных позиций на доске равно приблизительно 10 20 , в шахматах 10 47 , то для го это количество равно 10 171 , что превосходит количество атомов во Вселенной. Вариантов первого хода в го целых 55 (в шахматах – 20). И если в шахматах с ходом игры число фигур на доске уменьшается, что уменьшает число возможных дальнейших вариантов развития партии, то в го камней на доске становится больше.

Впечатляет резкий скачок силы игры в го систем искусственного интеллекта, который произошел благодаря созданию AlphaGo. Традиционно в го при очень большой разнице в классе игроков прибегают к игре с гандикапом. Перед началом игры на доску выставляется определенное количество камней слабейшего игрока. Эти дополнительные камни дают ему преимущество, равное примерно 10 – 15 итоговым очкам за каждый камень. Успехи игрока часто оценивают числом дополнительных камней, при котором он может выиграть у мастера. Первой программой для игры в го, сыгравшей с человеком, стала в 1989 году программа Goliath. Сначала она проигрывала игроку 6-го любительского дана при 17 камнях форы, но к 1991 году научилась выигрывать при таком условии. Однако при 15 камнях форма программа вновь не могла выиграть ни одной партии. В 1995 году HandTalk научилась выигрывать при форе в 15 камней. На следующий год ее создатели попытались улучшить достижение, сократив форму до 11 камней, но человек выиграл все партии. В 2008 году программа MoGo сначала уступила профессиональному игроку Каталину Тарану на девяти камнях форы, но уже через пять месяцев добилась победы. В тот же год подобного успеха добилась французская программа Crazy Stone, а к концу года она сумела выиграть и на семи камнях. В 2009 году MoGo победила профессионала на шести камнях. В 2011 году японская программа Zen выиграла на пяти камнях форы у профессионала 6-го дана Кодзо Хаяси. В 2012 году Zen и Crazy Stone начинают обыгрывать людей на четырех камнях. Среди потерпевших поражение при таких условиях игры были легендарные игроки Исида Йосио и Йода Норимото. В 2015 году на четырех камнях научилась выигрывать еще одна программа – корейская DolBaram. Но в октябре года чемпион Европы по го 2014 и 2015 годов Фань Хуй сенсационно проиграл программе AlphaGo со счетом 0:5. При этом форы вообще не было. Благодаря AlphaGo искусственный интеллект миновал стадии форы в три, два или один камень, начав соперничать с мастерами на равных.

Но все-таки чемпион Европы по го не такой сильный соперник, как сильнейшие из профессиональных игроков Китая, Японии и Южной Кореи. Все игроки, комментировавшие итоги октябрьской партии, скептически оценивали шансы AlphaGo в будущем противостоянии с Ли Седолем. Сам игрок говорил, что в состоянии дать AlphaGo фору в два камня. И он был несомненно прав, но ни Ли Седоль, ни другие профессионалы не учитывали, что такая система искусственного интеллекта, какой является AlphaGo, построена на самообучении, и уж тем более не смогли оценить скорость, с которой она будет прогрессировать.

Чтобы продемонстрировать, как машина может самообучаться, познакомимся с очень простым примером такой системы. Ее создал в 1961 году Дональд Мичи, назвав свою машину MENACE (Mathbox Educable Naughts and Crosses Engine). Она предназначалась для игры в крестики-нолики, а физически была реализована в виде примерно 300 коробков, наполненных разноцветными бусинками. На каждом коробке была изображена одна из возможных позиций, возникающих при игре. А внутри коробка был сделан уголок из картона, куда могла попасть только одна из находящихся в нем бусинок. Машина играла крестиком, то есть, делая первый ход в партии.

Чтобы MENACE выбрала, каким ходом она начнет игру, Дональд Мичи брал коробок, соответствующий начальному ходу. На нем точками разного цвета обозначены три возможных варианта хода (остальные варианты соответствуют этим трем при симметричном отражении игрового поля): в центральную клетку, в угол и в середину боковой стороны. Цвета точек на схеме соответствуют цветам бусинок в коробке.

Варианты первого хода крестика

Дональд Мичи тряс коробок, одна из бусинок заскакивала в картонный уголок, и ее цвет определял первых ход MENACE. Ответный ход ноликом совершал человек. Дальше предстояло определить следующий ход MENACE. Предположим, что первым ходом крестики пошли в середину доски. Тогда для определения второго хода крестиков нужно было взять один из двух коробков, в зависимости от того, куда пошли нолики.

Варианты второго хода

Манипуляции с коробком и выбором бусинки повторялись. Дальнейшие ходы крестиков определялись аналогично, при помощи соответствующего коробка. Когда игра оканчивалась, наступало время сделать выводы. Если MENACE выигрывала, то в каждый из коробков задействованных в данной игре, Мичи добавлял по три бусинки того цвета, который выпал в данном случае. Если игра заканчивалась вничью, добавлялось всего по одной бусинки. А если MENACE проигрывала, то Мичи убирал бусинки, соответствовавшие сделанным ею ходам.

В результате со временем вероятность того, что MENACE сделает правильный ход, возрастала, а вероятность ходов, ведущих к проигрышу, уменьшалась. Мичи сыграл со своей машиной 220 партий, и в итоге она стала прекрасным игроком в крестики-нолики. Другие примеры аналогичных машин из спичечных коробков описаны Мартином Гарднером.

Конечно, AlphaGo во много раз сложнее, чем груда спичечных коробков с бусинами. Ее даже нельзя называть компьютерной программой, так как она не представляет собой последовательность команд, составляющих алгоритм игры. AlphaGo – это искусственная нейронная сеть. Такие сети представляют собой совокупность элементов («нейронов»), организованных слоями, и связей между ними. «Нейроны» внешнего слоя, получая некоторую входную информацию, с какой-то вероятностью реагируют на нее. За ними следует реакция нейронов следующего слоя, которые следят за предыдущим. Так процесс продолжается, пока дело не доходит до последнего, выходного слоя, реакция нейронов которого обозначает определенное решение.

Схема искусственной нейронной сети с четырьмя слоями «нейронов»

В начале существования нейронной сети вероятности реакции конкретных «нейронов» несущественны, ведь ей предстоит еще пройти обучение. Для этого ей предлагается заранее заготовленная подборка задач, для решения которых предназначается сеть. Сеть их с тем или иным успехом решает. Затем подборка задач прогоняется через сеть снова и снова, но вероятности, с которыми реагируют на сигнал отдельные «нейроны», последовательно изменяют. Если сделанное изменение увеличивает процент правильных решений, то его закрепляют, если уменьшает – убирают. В этом, пожалуй, единственное сходство искусственной нейронной сети с машиной из спичечных коробков: действие, ведущее к верному исходу, подкрепляют («обучение с подкреплением»).

В системе AlphaGo данные обрабатываются в 12 сетевых слоях, объединяющих миллионы «нейронов». Обучение система проходила, проанализировав 30 миллионов ходов в партиях, сыгранных людьми, игроками высоких данов. В итоге она для начала научилась правильно предсказывать следующий ход профессионала в 57 % случаев. Затем разработчики AlphaGo заставили систему сыграть еще тысячи партий саму с собой, а также тренировочные партии с другими компьютерными программами. Поскольку играть с собой AlphaGo может постоянно, уровень ее игры тоже постоянно растет.

Какие задачи могут решать обучаемые нейронные сети, помимо игры в го? Одной из важнейших сфер их применения является распознавание образов. Систему успешно учат, получая изображение, может, например, отличать кошку от собаки (или различать любые другие объекты). Для этого в период обучения ей демонстрируется множество изображений, для которых известно, кошка это или собака. А потом она начинает справляться сама.

Любая ситуация, где нужно принять решение, опираясь на множество факторов, это хорошее приложение для нейронных сетей. При постановке медицинского диагноза такая система будет анализировать все признаки пациента (пол, возраст, наличие того или иного симптома, температура, давление, пульс, параметры крови, дозы принимаемых лекарств) и опираться на огромное количество прецедентов. Для финансовой сферы актуальна задача оценки заемщиков. Получив данные о лице, которое запрашивает кредит, система должна решить, выдать ему этот кредит или отказать. Здесь играют роль возраст, профессия, должность, место проживания, доход семьи и прочее. Для обучения системы используются данные о клиентах банков, про которых уже известно, выплатили ли они кредит или оказались несостоятельны. Прогнозирование спроса, оценка релевантности результатов информационного поиска и многое другое сейчас подвластно нейронным сетям.

Возвращаясь к разговору об AlphaGo, следует заметить, что достоинства искусственной нейронной сети она сочетает с другим методом игры: поиском по дереву вариантов позиции. Такой поиск при игре в го неэффективен без нейросетевой способности анализировать удачность позиции в целом из-за слишком большого числа возможных вариантов, но он позволяет компенсировать слабости в игре нейросети. Реализована нейронная сеть AlphaGo на 1202 процессорах и 176 графических процессорах.

Победа AlphaGo в матче с одним из сильнейших профессионалов стала важным достижением специалистов по искусственному интеллекту. У нейронной сети за счет обучения на большом количестве партий удалось создать аналог человеческой интуиции, который весьма важен при игре в го. Пока у машин нет полного и безоговорочного преимущества над человеком: Ли Седоль одержал блестящую победу в четвертой партии, играл на равных с AlphaGo в пятой, хорошо провел первую половину первой. Но скорость, с которой повышается уровень игры искусственной нейронной сети, показывает, что в будущем она станет еще более мощным соперником.

Интересная ситуация наблюдается сейчас в игре сёги, известной также под названием «японские шахматы». По количество возможных позиций на доске (10 71 ) сёги превосходит шахматы, но уступает го. Повышается сложность игры за счет того, что взятые фигуры противника не покидают игру насовсем, а попадают в резерв взявшего их игрока, который может по определенным правилам выставить их потом вновь на доску как свои.

Большинство сильнейших компьютерных систем, играющих в сёги, не основаны на нейросетях, а похожи на шахматные программы. В них имеются библиотеки дебютов и эндшпилей и реализован алгоритм поиска вариантов.

Доска и комплект фигур для сёги

Японская ассоциация сёги периодически устраивает мероприятие под названием «деносен», матч профессиональных игроков против лучших программ. Деносен – подается как красочное шоу с телетрансляцией и привлечением спонсоров, а ходы, которые совершают программы, делаются на доске не человеком-ассистентом, а роботизированной рукой. Без разрешения ассоциации профессиональные игроки в сёги не имеют права публично играть против компьютеров (это сделано, чтобы не упустить прибыль).

Эпизод одного из деносенов

Первым деносеном считается игра в январе 2012 года программы Bonkras c выдающимся игроком, президентом Японской ассоциации сёги Кунио Йонэнагой. Правда, основные успехи Кунио Йонэнаги приходятся на конец 70-х – первую половину 80-х годов, а в 2003 году он завершил профессиональную карьеру. Партия ветерана против Bonkras четыре с половиной часа, и в итоге компьютер выиграл. Йонэнага рассказал об игре в книге «Я проиграл», которая стала его последним произведением, в декабре того же года мастер умер.

В 2013 году прошел второй и первый групповой деносен. Пять профессионалов (двое – 4-й дан, по одному 5-й, 8-й и 9-й) дан сыграли против пяти программ, показавших лучшие результаты на предшествовавшем чемпионате по го среди компьютеров. В результате в одной партии человек выиграл, одна закончилась вничью, в трех выиграли программы. Один из проигравших игроков, Кохеи Фунае 5-й дан, позднее в том же году встретился с победившей его программой Tsutsukana и сумел взять реванш. На третьем деносене в 2014 году матч закончился со счетом 4:1 в пользу компьютеров. Как и в прошлый раз одному из проигравших предоставили шанс взять реванш. Тацуя Сугаи (5-й дан) и программа Shueso имели по восемь часов на обдумывание, а, истратив это время, должны были укладываться в минуту на каждый следующий ход (подобное правило знакомо тем, кто смотрел матч Ли Седоля и AlphaGo). В результате они играли почти 20 часов, и Тацуя Сугаи все-таки потерпел поражение. Веру в человечество поддержали итоги четвертого деносена, на котором люди победили со счетом 3:2.

Можно заметить, что в деносенах редко участвуют мастера сёги 8-го и 9-го данов, лучшие игроки пока не стремятся противостоять программам. Но, вне всякого сомнения, очень скоро наступит момент, когда профессионалы низких данов станут слишком легкой добычей для компьютера, поэтому сильнейшим игрокам придется вступить в игру. Напомним, что в сёги еще не вступили в борьбу на серьезном уровне нейросети.