Силой мысли: история нейроинтерфейсов, современные разработки и финансовые перспективы области
Обозреватель vc.ru и автор нескольких научно-популярных книг Алесь Мищенко изучил развитие отрасли нейроинтерфейсов — технологий, которые позволяют управлять объектами «силой мысли». Он выделил основные научные и промышленные разработки в этой области, описал историю направления и предположил, как отрасль будет развиваться в дальнейшем.
Идея нейроинтерфейса, почти как идея межзвёздного корабля, стара как сама фантастика. Тот, кто смотрел, например, сериал «Звездные врата», знает, что управление техникой силой мысли (то есть с помощью нейроинтерфейса) — это одна из основных технологий древних высокоразвитых цивилизаций.
Нейроинтерфейс (НКИ или интерфейс «мозг — компьютер») — это, в широком смысле, устройство для обмена информацией между мозгом и внешним устройством (компьютером, экзоскелетом, искусственными органами чувств, бытовыми устройствами или инвалидной коляской). Современный уровень технологий позволяет использовать однонаправленные интерфейсы, в которых внешние устройства могут либо принимать, либо посылать сигналы мозгу. Двунаправленные многофункциональные нейроинтерфейсы, взаимодействующие с мозгом фактически как его расширение — это пока дело будущего.
Нейроинтерфейсы сочетают технологии многих областей, в том числе информатики, электротехники, нейрохирургии и биомедицинской инженерии и различаются по типу: инвазивные (с вживлением электродов в мозг), частично инвазивные (с расположением электродов на поверхности мозга) и неинвазивные (на основе технологий регистрации электрический активности мозга внешними приборами).
Нейроинтерфейсы также различают по применению (управление или восстановление функции мозга) и области использования (медицина, военная отрасль, производство, игры и развлечения)
Речевые интерфейсы
1) ИМК на основе ЭКоГ на основе слухового внимания к естественной речи
Люди, страдающие тяжелыми нейродегенеративными заболеваниями (например, поздней стадией бокового амиотрофического склероза (БАС)), в конечном итоге теряют мышечный контроль и больше не могут жестикулировать или говорить. Недавние исследования показывают, что электрокортикографические (ЭКоГ) сигналы в гамма-диапазоне (т.е. 70–170 Гц) могут использоваться для определения идентичности звуковых речевых стимулов.
В своей работе [1] авторы изучают эту возможность, реализуя систему реального времени на основе BCI2000, которая использует сигналы ЭКоГ для идентификации присутствующего говорящего.
Исследуемому пациенту с трудноизлечимой эпилепсией была проведена временная установка 72 субдуральных электродов. Регистрация ЭКоГ с имплантированных электродов производилась с использованием усилителя g.HIamp и программной платформы BCI BCI2000, которая собирала данные с частотой 1200 Гц .
Задача испытуемого заключалась в том, чтобы выборочно проявить внимание к одному из двух одновременно выступающих говорящих. Авторы смешали две (монофонические) речи в бинауральную презентацию, в которой поток, передаваемый каждому уху, содержал 20% ∶ 80% громкости одного говорящего и 80% ∶ 20% громкости другого, соответственно.
Созданный интерфейс получает звуковой сигнал через микрофон или предварительно загруженный файл. Затем фильтр корреляции сигналов вычисляет значения корреляции, то есть корреляцию между двумя (монофоническими) речами, чтобы определить, на какого говорящего пользователь направляет свое внимание. Наконец, фильтр увеличения обратной связи увеличивает громкость обслуживаемого докладчика и уменьшает громкость другого говорящего, чтобы обеспечить обратную связь с субъектом
2) Распознавание непрерывной речи с помощью интерфейса мозг-компьютер
В течение последних двух десятилетий исследования в области интерфейса мозг-компьютер (ИМК) работали над практическими и полезными приложениями для коммуникации и управления. Тем не менее, многие методы. использующие ИМК, страдают от неестественного взаимодействия или трудоемкого обучения пользователей. Поскольку непрерывная речь обеспечивает очень естественный подход к общению, долгое время стоял вопрос, можно ли разработать ИМК, которые распознают речь по активности коры головного мозга. Воображаемая речь как парадигма ИМК для ограниченных пациентов означала бы значительное улучшение скорости общения и удобства использования без необходимости громоздкого написания с использованием отдельных букв .
В исследовании с 7 участниками [2] авторы впервые показали, что непрерывная речь представлена в мозгу как последовательность фонем(звуков). Эти фонемы могут быть декодированы из записей электрокортикографии (ЭКоГ) и позволяют составить произнесенные слова. Все участники перенесли операцию в связи с трудноизлечимой эпилепсией и согласились участвовать в нашем эксперименте. Расположение электродов определялось исключительно исходя из клинических потребностей пациентов.
Распознавание отдельных фонем
В эксперименте авторы одновременно записывали ЭКоГ-активность и форму звуковой волны, в то время как участники читали вслух разные тексты, состоящие из детской литературы, фанфиков или политических выступлений. Авторы согласовали нейронные данные по времени с маркировкой фонем, полученных из звуковых данных, с помощью собственного инструментария распознавания речи BioKIT. Это позволило идентифицировать нейронную активность, соответствующую производству каждой фонемы.
Затем авторы объединили фонемное(звуковое) представление корковой активности с языковой информацией, используя технологию автоматического распознавания речи, чтобы реконструировать слова в мысленно произнесенных фразах. Информация о языке включается в процесс декодирования через языковую модель и словарь произношения. Словарь произношения содержит отображения фонемных последовательностей в слова. Языковая модель статистически моделирует синтаксическую и семантическую информацию, предсказывая следующие слова с учетом предшествующих слов.
Результаты показали, что с ограниченным набором слов в словаре интерфейс может восстанавливать полные предложения. На рисунке показаны различные этапы декодирования непрерывно произносимых фраз из нейронных данных.
Например, последовательность воображаемых фонем (звуков)
Интерфейс распознает и произнесёт как
Человек и компьютер
Существуют расчеты, доказывающие, что вычислительная мощность мозга несоизмеримо выше компьютерных аналогов. Даже на фоне суперкомпьютеров сообщество нейронов в черепной коробке в супер-пупер раз мощнее. Но при этом мозгу явно недостает «оперативной памяти». А уж насколько плох наш «жесткий диск» – знают все, особенно когда надо выучить стихотворение или вспомнить номер телефона. Возможно, он тоже супер-пупер, но интерфейс извлечения данных из долгосрочной памяти не соответствует современным реалиям.
Многое может измениться на фоне совершенствования технологий искусственного интеллекта. Возможно, в ближайшие годы люди на свою голову могут научить машину не только оперировать огромными массивами данных, но и задаткам абстрактного мышления, самосознания, интеллекта. На подходе квантовые компьютеры, чья вычислительная мощность вполне может сравниться с человеческим мозгом.
Где можно использовать?
Самое первое, что приходит в голову, — научные исследования. Если обратиться к ранним работам, то в основном это эксперименты на животных. Собственно, с этого все и началось, как уже говорилось выше: мышам и обезьянам вживляли небольшие электроды и смотрели за активностью тех или иных областей мозга и частей нервной системы. Полученная информация давала возможность глубокого изучения протекающих в мозге процессов.
Далее — медицинские цели. Подобные интерфейсы уже нашли применение в медицине в виде диагностических медицинских приборов для невропатологов. Если результат выдается непосредственно испытуемому, то может включиться в работу так называемая биологическая обратная связь.
Включается дополнительный канал саморегуляции организма, когда физиологическая информация предоставляется пользователю в доступном виде, а он учится управлять своим состоянием на ее основе. Подобные приборы уже существуют и используются.
Перспективным направлением считается нейропротезирование, где достигнуты отдельные успехи. В случае невозможности восстановить поврежденные проводящие нервы в парализованной конечности можно вживить электроды, которые будут проводить сигналы к мышцам. Сюда же относится подключение к нервной системе искусственных протезов взамен утраченных конечностей. Или удаленное управление роботами «аватарами».
Сенсорное протезирование. Уже обыденным примером можно считать кохлеарный имплант, который позволяет восстановить слух людям. Также уже сейчас существуют нейроимпланты сетчатки глаза, позволяющие частично восстановить зрение.
Широкий простор для воображения дают игры. И не только с использованием виртуальной реальности, но и, например, вполне обыденное управление радиоигрушками при помощи такого рода устройств.
А если к возможности считывать сигналы добавить возможность посылать их обратно, стимулируя определенные части нервной системы, то (пока лишь в теории) это открывает невероятные перспективы для индустрии развлечений.
Что умеют нейронные сети
Ученые Терри Сейновски и Чарльз Розенберг обучали многослойный перцептрон читать вслух. Их система NETtalk сканировала текст, подбирала фонемы согласно контексту и передавала их в синтезатор речи. NETtalk не только делал правильные обобщения для новых слов, чего не умели системы, основанные на знаниях, но и научился говорить очень похоже на человека. Сейновски любил очаровывать публику на научных мероприятиях, пуская запись обучения NETtalk: сначала лепет, затем что-то более внятное и наконец вполне гладкая речь с отдельными ошибками. (Поищите примеры на YouTube по запросу sejnowski nettalk.)
Первым большим успехом нейронных сетей стало прогнозирование на фондовой бирже. Поскольку сети умеют выявлять маленькие нелинейности в очень зашумленных данных, они приобрели популярность. Типичный инвестиционный фонд тренирует сети для каждой из многочисленных ценных бумаг, затем позволяет выбрать самые многообещающие, после чего люди-аналитики решают, в какую из них инвестировать.
Беспилотные автомобили — тоже пример того, как хорошо нейронные сети обучаются. А совсем недавно Google рассказали о том, что научили нейросети «писать» картины, опираясь на загруженные в них изображения.
Ребята из Медузы собрали целую галерею таких машинных картин.
Сегодня мы обучаем более глубокие сети, чем когда бы то ни было, и они задают новые стандарты в зрении, распознавании речи, разработке лекарственных средств и других сферах. И, конечно, меняют мир. По мере того как мы будем лучше понимать мозг, ситуация может измениться. Вдохновленная проектом «Геном человека», новая дисциплина — коннектомика — стремится составить карту всех мозговых синапсов. Возможно, это то самое окно в будущее.
P.S.: Понравилось? Подписывайтесь на нашу новую рассылку. Раз в две недели будем присылать 10 самых интересных и полезных материалов из блога МИФа.
С чего все начиналось
Интерес к изучению мозга техническими методами возник сравнительно недавно — примерно на рубеже XIX и XX веков. В 1920-х годах исследователь Эдгар Эдриан предположил, что нейроны генерируют электрические импульсы и служат базовым элементом куда более сложной структуры. Позже Дональд Хебб разработал (1949) теорию пластичности синаптической передачи и нейронных ансамблей, что перевернуло представление об обязанностях, «закрепленных» за конкретными областями коры головного мозга. Оказалось, что при необходимости нейроны охотно меняют свои функции и нельзя выделить какую-то одну группу, отвечающую, например, за навыки информационной безопасности.
В 1960-х в лаборатории нейронального контроля Национального института здоровья США впервые попытались записать и обработать электрический сигнал с нейронов подопытной обезьяны. Пару десятилетий спустя эта же группа ученых экспериментировала с анализом мозговой деятельности уже в реальном времени, позволяя пациентам зажигать лампочки светового табло «силой мысли». Открывшиеся возможности окрылили исследователей, и варианты прикладных применений не заставили себя долго ждать. Первая научная статья, описывающая успешные эксперименты с «виртуальной клавиатурой» для парализованных людей, вышла в 1999 году (Нилс Бирбаумер).
Увы, мыслительные процессы человека оказались устроены гораздо сложнее, чем изначально предполагали ученые. Этим объясняется некоторый спад интереса к нейроинтерфейсам в начале XXI века. Однако история циклична, и сегодня многие проекты переживают второе рождение.
Во-первых, этому способствовал прогресс в аппаратном обеспечении. За последние несколько лет в продаже появились доступные по цене и относительно мало потребляющие аналого-цифровые преобразователи (АЦП), которые можно успешно использовать в задачах оцифровки биологических сигналов. Например, сигма-дельта-АЦП ADS1263 имеет заявленное разрешение 32 бит, уровень собственных шумов порядка 7 нВ, максимальную частоту оцифровки 38,4 кГц и полное входное сопротивление около 1 ГОм. Эти качества позволяют использовать микросхему в системах сбора информации без дополнительных буферных усилителей.
Кроме АЦП, существенно продвинулись по характеристикам инструментальные усилители, входное сопротивление которых приближается к тераомам, а коэффициент усиления составляет десятки тысяч раз. При этом собственные токи утечек и токовый шум не превышают одного пикоампера, что помогает разработчикам проектировать крайне чувствительные схемы съема биопотенциалов.
Из более очевидных вещей: производительность наших компьютеров выросла в десятки раз. Не в последнюю очередь это стало возможным благодаря использованию GPU-, FPGA- и ASIC-микросхем для анализа сигналов в реальном времени. Кроме того, весьма популярная сегодня модель организации вычислений в облаке позволяет компаниям легко арендовать необходимые мощности, концентрируясь на главном.
Во-вторых, вместе с аппаратной частью эволюционировали и возможности нашего программного обеспечения. Появились дружественные к исследователям фреймворки, высокоуровневые языки программирования и многочисленные способы визуализации и классификации информации. Например, сегодня с помощью нейросети можно легко отслеживать возникающие события и корреляцию даже в зашумленных рядах данных.
Ниже на рисунке изображены основные группы алгоритмов, которые используются для поиска особенностей сигнала в реальном времени.
Что касается основного источника информации для интерфейса «мозг — компьютер», то тут особых изменений не произошло. Сегодня наиболее часто используются сигналы с электроэнцефалограмм. Альтернативным способом может быть функциональная магнитно-резонансная томография (fMRI) и магнитоэнцефалография. Однако, как ты понимаешь, разработать компактный томограф практически невозможно, а многомиллионная стоимость готовых аппаратов ограничивает их использование только крупными коллективами в компаниях и институтах.
Будущее интерфейса мозг-компьютер: проблемы и перспективы
Исследования и разработка интерфейсов мозг-компьютер вызывают огромный интерес у ученых, инженеров и клиницистов. Повышенный интерес отражает обширные перспективы, которые может предоставить нейрокомпьютерный интерфейс как для науки, так и для практических целей. Со временем ИМК можно будет использовать в плановом порядке для протезирования или восстановления важных функций у людей с тяжелыми формами инвалидности из-за нервно-мышечных расстройств; они также могут улучшить реабилитацию людей с инсультами, травмами головы и другими заболеваниями.
В настоящее время перед исследователями и разработчиками интерфейсов стоит ряд проблем в трех критических областях:
- оборудование для регистрации сигналов;
- проблема выбора индивидуального ИМК;
- эксплуатационная надежность системы и ее стабильность работы.
Оборудование для сбора сигналов
Все нейрокомпьютерные интерфейсы зависят от датчиков и связанного с ними оборудования, которое регистрирует сигналы мозга. Улучшение качества данного оборудования обуславливает повышение эффективности интерфейса мозг-компьютер. В идеале, интерфейс мозг-компьютер неинвазивного типа на основе ЭЭГ должен:
- иметь электроды, не требующие нанесения проводящего геля (т.е. разработка сухих электродов);
- должен быть портативным;
- должен иметь удобные и косметически приемлемые крепления;
- быть простым в настройке;
- работать длительное время без необходимости технического обслуживания;
- хорошо работать вне зависимости от окружающей среды;
- работать с помощью телеметрии, а не требовать проводного подключения;
- быть совместимым с различным программным обеспечением.
Интерфейс мозг-компьютер, в котором используются имплантированные электроды, сталкивается с рядом сложных проблем, связанных с безопасностью применения:
- должен оставаться целым, функциональным и надежным в течение десятилетий;
- записывать стабильные сигналы на протяжении многих лет;
- передавать записанные сигналы телеметрически;
- обладать возможностью заряжаться на месте (или иметь батареи, рассчитанные на годы или десятилетия);
- иметь внешние элементы, которые прочны, удобны и стерильны;
- быть совместимым с программным обеспечением.
Хотя в последние годы были достигнуты большие успехи, и в отдельных случаях имплантаты с микроэлектродами продолжали функционировать в течение многих лет, неясно, какие решения будут наиболее успешными. Нейрокомпьютерные интерфейсы, основанные на ЭКоГ или на потенциале локального поля, могут обеспечить более стабильную работу, чем ИМК, которые основаны на потенциалах действия отдельных нейронов. Тем не менее, вероятно, что для полной реализации своих возможностей инвазивным ИМК потребуются существенные, пока еще неопределенные инновации в сенсорной технологии. Большая часть необходимых исследований будет по-прежнему полагаться в первую очередь на исследования на животных, до начала массового тестирования на людях.
Проблема выбора индивидуального ИМК
По мере того, как работа продолжается, и нейроинтерфейсы начинают использоваться в реальной клинической практике, возникают 2 важных вопроса:
- насколько эффективен и надежен данный ИМК;
- какие ИМК лучше всего подходят, для каких целей.
Чтобы ответить на первый вопрос, необходимо длительное и широкомасштабное тестирование. Ответ на второй вопрос потребует консенсуса среди исследовательских групп относительно того, какие критерии следует использовать для сравнения различных интерфейсов мозг-компьютер и как нужно оценивать их производительность.
Наиболее очевидным примером является вопрос о том, достаточна ли эффективность ИМК, использующих интракортикальные сигналы, по сравнению с ИМК, которые используют сигналы ЭКоГ или даже сигналы ЭЭГ. Для многих потенциальных пользователей инвазивные интерфейсы мозг-компьютер должны будут обеспечивать гораздо лучшую производительность, чтобы быть предпочтительнее неинвазивных ИМК и оправдать риск и затраты операционного вмешательства. Данные на сегодняшний день не дают однозначного ответа на этот ключевой вопрос. 8
Наблюдается тенденция к тому, что неинвазивные ИМК на основе ЭЭГ или fNIR чаще используются в основном для базовой коммуникации, тогда как ИМК на основе ЭКоГ применяются для контроля сложных движений.
Разработка интерфейса мозг-компьютер для людей с ограниченными возможностями требует четкого подтверждения их реальной ценности с точки зрения эффективности, практичности (включая рентабельность) и влияния на качество жизни. 9 Например, валидация технологии ИМК для восстановления после инсульта или при других расстройствах также потребует тщательного сравнения с результатами традиционных методов реабилитации.
Современные нейрокомпьютерные интерфейсы с учетом их ограниченных возможностей и потенциальных рисков использования, могут быть полезными в основном для людей с очень тяжелыми формами инвалидности. Поскольку численность таких пациентов относительно невелика, ИМК являются невыгодным решением с точки зрения окупаемости технологии: на сегодняшний день нет стимула для массового внедрения капитала в данную технологию. Инвазивные ИМК требуют значительные затраты на первоначальную имплантацию, а также на последующую техническую поддержку. Будущая коммерческая успешность всех ИМК будет зависеть от уменьшения объема и сложности необходимой долгосрочной поддержки, от увеличения числа пользователей и от обеспечения возмещения расходов страховыми компаниями и государственными учреждениями.
В будущем, большое количество успешных клинических и лабораторных испытаний может значительно увеличить количество потенциальных пользователей. В любом случае, если дальнейшая работа улучшит функциональность ИМК и сделает их коммерчески привлекательными, для их распространения потребуются жизнеспособные бизнес-модели, которые дадут как финансовый стимул для коммерческой компании, так и адекватную компенсацию клиническому и техническому персоналу, который будет поддерживать работу ИМК. Оптимальным сценарием может быть сценарий, при котором ИМК для людей с тяжелыми формами инвалидности развиваются синергетически с ИМК для населения в целом.
Эксплуатационная надежность системы
Несмотря на увеличивающееся количество исследований ИМК, эксплуатационная надежность системы и ее стабильность на сегодняшний день остается ключевой проблемой ее использования. Эффективность использования и эксплуатационную надежность интерфейса мозг-компьютер можно повысить увеличив качество и область регистрации нейрональной активности.
Так контроль двигательных действий со стороны центральной нервной системы обычно распределяется по нескольким областям. Корковые области могут определять цель и общий ход действия; однако детали (особенно высокоскоростные сенсомоторные взаимодействия) часто обрабатываются на подкорковых уровнях.
Это говорит о том, что производительность ИМК может быть улучшена за счет использования сигналов из нескольких областей мозга и использования функций сигналов мозга, которые отражают отношения между областями, например, согласованность.
Интерфейсы мозг-компьютер, которые используют сигналы из нескольких областей, с большей вероятностью будут чувствительны к нейрональной активности и, таким образом, смогут лучше распознавать команды пользователя.