По мере того как модели машинного обучения становятся все крупнее и сложнее, для выполнения вычислений им требуется более быстрое и энергоэффективное оборудование. Обычные цифровые компьютеры с трудом идут в ногу со временем.
Аналоговая оптическая нейронная сеть могла бы выполнять те же задачи, что и цифровая, такие как классификация изображений или распознавание речи, но поскольку вычисления выполняются с использованием света вместо электрических сигналов, оптические нейронные сети могут работать во много раз быстрее, потребляя при этом меньше энергии.
Однако эти аналоговые устройства подвержены аппаратным ошибкам, которые могут сделать вычисления менее точными. Микроскопические дефекты в аппаратных компонентах являются одной из причин этих ошибок. В оптической нейронной сети, имеющей множество подключенных компонентов, ошибки могут быстро накапливаться.
Даже при использовании методов исправления ошибок, из-за фундаментальных свойств устройств, составляющих оптическую нейронную сеть, некоторая погрешность неизбежна. Сеть, которая достаточно велика, чтобы быть реализованной в реальном мире, была бы слишком неточной, чтобы быть эффективной.
Исследователи Массачусетского технологического института преодолели это препятствие и нашли способ эффективного масштабирования оптической нейронной сети. Добавляя крошечный аппаратный компонент к оптическим коммутаторам, формирующим архитектуру сети, они могут уменьшить даже количество неисправимых ошибок, которые в противном случае накапливались бы в устройстве.
Их работа может позволить создать сверхбыструю, энергоэффективную аналоговую нейронную сеть, которая может функционировать с той же точностью, что и цифровая. С помощью этого метода, по мере того как оптическая схема становится больше, количество ошибок в ее вычислениях фактически уменьшается.
"Это замечательно, поскольку противоречит интуиции аналоговых систем, где предполагается, что более крупные схемы имеют более высокие ошибки, так что ошибки устанавливают предел масштабируемости. Настоящая статья позволяет нам ответить на вопрос масштабируемости этих систем однозначным "да"", - говорит ведущий автор Райан Хамерли, приглашенный научный сотрудник Исследовательской лаборатории электроники Массачусетского технологического института (RLE) и лаборатории квантовой фотоники и старший научный сотрудник NTT Research.
Соавторами Хамерли являются аспирант Саумил Бандьопадхьяй и старший автор Дирк Энглунд, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS), руководитель лаборатории квантовой фотоники и член RLE. Исследование опубликовано в Сообщения о природе.
Умножаясь со светом
Оптическая нейронная сеть состоит из множества связанных компонентов, которые функционируют как перепрограммируемые, настраиваемые зеркала. Эти перестраиваемые зеркала называются инферометрами Маха-Цендера (MZI). Данные нейронной сети кодируются в виде света, который поступает в оптическую нейронную сеть от лазера.
Типичный MZI содержит два зеркала и два разделителя луча. Свет попадает в верхнюю часть MZI, где он разделяется на две части, которые интерферируют друг с другом, прежде чем быть повторно объединенным вторым светоделителем, а затем отражается снизу к следующему MZI в матрице. Исследователи могут использовать интерференцию этих оптических сигналов для выполнения сложных операций линейной алгебры, известных как умножение матриц, именно так нейронные сети обрабатывают данные.
Но ошибки, которые могут возникнуть в каждом MZI, быстро накапливаются по мере перемещения света от одного устройства к другому. Можно избежать некоторых ошибок, определив их заранее и настроив MZIS таким образом, чтобы более ранние ошибки были устранены более поздними устройствами в массиве.
"Это очень простой алгоритм, если вы знаете, в чем заключаются ошибки. Но эти ошибки, как известно, трудно обнаружить, потому что у вас есть доступ только к входам и выходам вашего чипа", - говорит Хамерли. "Это побудило нас посмотреть, возможно ли создать исправление ошибок без калибровки".
Хамерли и его сотрудники ранее продемонстрировали математическую технику, которая пошла еще дальше. Они могли успешно вывести ошибки и соответствующим образом правильно настроить MZIS, но даже это не устранило всю ошибку.
Из-за фундаментальной природы MZI бывают случаи, когда невозможно настроить устройство так, чтобы весь свет выходил из нижнего порта на следующий MZI. Если устройство теряет часть света на каждом шаге, а матрица очень большая, к концу останется лишь крошечная часть энергии.
"Даже с исправлением ошибок существует фундаментальный предел тому, насколько хорошим может быть чип. MZIS физически не в состоянии реализовать определенные настройки, на которые они должны быть настроены", - говорит он.
Итак, команда разработала новый тип MZI. Исследователи добавили дополнительный светоделитель на конце устройства, назвав его 3-MZI, потому что у него три светоделителя вместо двух. Благодаря тому, как этот дополнительный светоделитель смешивает свет, MZI становится намного проще достичь настройки, необходимой для отправки всего света наружу через его нижний порт.
Важно отметить, что дополнительный светоделитель имеет размер всего несколько микрометров и является пассивным компонентом, поэтому он не требует дополнительной проводки. Добавление дополнительных разделителей луча существенно не изменяет размер чипа.
Больший чип, меньше ошибок
Когда исследователи провели моделирование, чтобы протестировать свою архитектуру, они обнаружили, что это может устранить большую часть неисправимых ошибок, которые снижают точность. И по мере того, как оптическая нейронная сеть становится больше, количество ошибок в устройстве фактически уменьшается - противоположность тому, что происходит в устройстве со стандартными MZIS.
Используя 3-MZIS, они потенциально могли бы создать устройство, достаточно большое для коммерческого использования, с погрешностью, которая была уменьшена в 20 раз, говорит Хамерли.
Исследователи также разработали вариант дизайна MZI специально для коррелированных ошибок. Это происходит из-за дефектов изготовления - если толщина чипа немного неправильная, все MZIS могут быть отклонены примерно на одинаковую величину, так что ошибки примерно одинаковы. Они нашли способ изменить конфигурацию MZI, чтобы сделать его устойчивым к такого рода ошибкам. Этот метод также увеличил пропускную способность оптической нейронной сети, так что она может работать в три раза быстрее.
Теперь, когда они продемонстрировали эти методы с помощью моделирования, Хамерли и его сотрудники планируют протестировать эти подходы на физическом оборудовании и продолжить работу над созданием оптической нейронной сети, которую они смогут эффективно развернуть в реальном мире.
Это исследование частично финансируется стипендией для аспирантов Национального научного фонда и Управлением научных исследований ВВС США.
Комментарии