Вы здесь

«Волшебник» и роботы

Одно из последних усовершенствований системы WISARD имеет прямое отношение к робототехнике. При установке любой системы машинного зрения на промышленном предприятии, где работают люди, возникает вполне очевидная проблема: система должна вести осмотр окружающего пространства и в тот момент, когда она замечает интересующий ее объект или что-то, выделяющееся на общем фоне, направлять видеокамеру непосредственно на объект. Подумаем, как мы пользуемся своими глазами. Мы воспринимаем изображение не в фиксированной рамке, как на картине или экране телевизора, и не все его участки одинаково ясно видим. На самом деле происходит следующее: периферийным зрением мы воспринимаем то, что происходит на довольно обширном пространстве, называемом полем зрения, но фактически четко видим лишь небольшой участок в центре этого поля. В результате мы можем сосредоточить взгляд на интересующем нас объекте (или части объекта), в то же время не упуская из виду того, что могло бы привлечь наше внимание на периферии поля зрения.
Такое устройство зрительной системы обладает многими достоинствами. В частности, оно позволяет нам концентрировать внимание на деталях изображения при решении задачи, требующей особой тщательности, и в то же время мгновенно замечать признаки грозящей опасности. Глядя, например, на большое здание, мы способны воспринимать как его общий вид, так и некоторые нужные нам или просто бросается в глаза его элементы. Когда мы высматриваем нечто интересующее нас, скажем человека в толпе, мы оглядываем довольно обширное пространство, но можем мгновенно остановить свой взгляд на том, кого искали.
Мы фокусируем взгляд, поворачивая глазное яблоко таким образом, чтобы интересующий нас объект попал в поле зрения. В центре сетчатки глаза, а именно в зоне, называемой центральной ямкой, светочувствительные палочки и колбочки расположены гораздо плотнее, и поэтому изображение объекта, на котором мы сосредоточили взгляд, автоматически воспринимается с более высоким разрешением. Фактически это изображение в отличие от остальной части поля зрения разбивается на более мелкие элементы, число которых соответственно увеличивается.

Нейроны и нейронные сети. На верхнем рисунке в весьма упрощенном виде показана нервная клетка (нейрон) — основной логический элемент нервной системы. Через синапсы в нейрон поступают электрические импульсы {подобие двоичных единиц) от других клеток. Один из синапсов является доминантным: когда на него поступают импульсы, нейрон соответственно подстраивает коэффициенты передачи остальных синапсов, т. е. «учится» возбуждаться (выдавать последовательность импульсов через свой единственный выход — аксон, связывающий этот нейрон с синапсами других нейронов) во всех случаях, когда на обычные синапсы поступают одинаковые последовательности сигналов, соответствующие импульсам или их отсутствию (что эквивалентно последовательностям двоичных 1 или 0).
На среднем рисунке схематически изображено элементарное запоминающее устройство с произвольной выборкой (ЗУПВ). Если четыре его адресные линии считать синапсами, входную линию — доминантным синапсом, а выходную — аксоном, то на практике это ЗУПВ по своим логическим возможностям будет соответствовать нервной клетке, воплощая собой кремниевый «нейрон».
На нижнем рисунке изображены четыре соединенных между собой ЗУПВ, образующих «одноуровневую нейронную сеть» (сеть, в которой информация поступает на вход каждого элемента, но сигналы с их выходов обратно в нее не приходят). В данном случае каждое ЗУПВ «просматривает» четыре элемента — черных (1) или белых (0), — расположенных произвольным образом в поле необработанного изображения. Если бы каждое ЗУПВ «научилось» выдавать 1 (т. е. возбуждаться), когда оно два раза подряд «видит» один и тот же набор из четырех элементов, то оно смогло бы идентифицировать небольшую часть всего изображения, а система обучилась бы распознавать изображение в целом. Число ЗУПВ, возбуждающихся в ответ на появление нового изображения, служит мерой того, насколько последнее «напоминает» уже усвоенную картину.
Сказанное выше, хотя и в весьма упрощенной форме, иллюстрирует принципы организации системы распознавания образов WISARD (начальные буквы названия системы взяты от фамилий ее создателей Уилки, Стонема и Александера — ученых из Брюнельского университета). Система состоит из ряда отдельных сетей (дискриминаторов), каждую из которых можно обучить распознаванию своего, отличного от других изображения. Дискриминатор содержит около 30 тыс. ЗУПВ; каждое из них имеет по восемь адресных линий и таким образом обучается распознавать элемент изображения, эквивалентный 8 бит информации. Вся система способна идентифицировать картины, состоящие из 512x512 (примерно четверть миллиона) элементов, что приблизительно соответствует одному кадру на экране домашнего телевизора.
Предполагается, что алгоритмы распознавания образов, используемые в системе WISARD, найдут применение и в робототехнике. Британская компания «Компьютер рекогнишн системз» уже продает коммерческий вариант такой системы; размеры аппаратных стоек, в которых размещены элементарные ЗУПВ нейронной сети, уменьшены в целях удобства эксплуатации.

На двух верхних фотографиях показан экспериментальный образец системы WISARD в действии: она «научилась» распознавать улыбающиеся и хмурящиеся лица (работу системы демонстрирует оператор, находящийся за кадром). Гистограмма в верхней части экрана видеомонитора слева от человека, которого рассматривает система, показывает, каким образом WISARD реагирует на выражение его лица. Верхний столбец гистограммы (фото слева) показывает положительный отклик системы на суровый вид человека, а нижний столбец отражает тот факт, что система находит здесь мало общего с улыбкой. Когда выражение лица меняется (нижнее фото), то же происходит и с относительной длиной столбцов гистограммы. На маленьком снимке — изображение лица, воспроизводимое системой WISARD.