Бинокулярное зрение

Зрительная система человека обладает рядом интересных особенностей.

Во-первых, разрешающая способность глаза быстро меняется при смещении изображения объекта от центральной ямки сетчатки к периферии (рис. 11).

Рис. 11. Относительная разрешающая способность сетчатки глаза.

Это обусловлено тем, что от сетчатки в мозг человека поступают не сигналы отдельных рецепторов (палочек и колбочек), а взвешенные суммы таких сигналов. Суммируются сигналы рецепторов небольших зон сетчатки – рецептивных полей. Рецептивные поля ганглиозных нейронов сетчатки имеют приблизительно круглую форму. Диаметр рецептивных полей изменяется от 2 угловых минут в центре до 1 – 2 градусов на периферии сетчатки. Для сравнения угловой размер луны составляет 30 минут, а колбочки 0,5 минуты. Рецептивные поля близких нейронов частично перекрываются. В результате такой обработки сигналов от 150 миллионов фоторецепторов сетчатки глаза в мозг идет только миллион нервных волокон. При моделировании работы нейронов сетчатки в качестве весовых функций рецептивных полей используют двумерные функции Гаусса колоколообразной формы.

Во-вторых, каждый отдельный рецептор сетчатки имеет собственную биохимическую систему адаптации к световому потоку. Эта система может быть описана на функциональном уровне как система с глубокой параметрической обратной связью, аналогичная системе автоматической регулировки усиления (АРУ), используемой в радиотехнике. Контуры АРУ имеются также на уровнях слоев горизонтальных и амакриновых клеток сетчаток глаз, которые изменяют весовые функции рецептивных полей. Учет действия АРУ позволяет объяснить многие психофизиологические эффекты зрения, такие как наличие полос Маха (подчеркивание контуров) или появление последовательных образов (рис. 12).

Рис. 12. Фиксируйте взгляд на центре флага 10 секунд, затем переведите его на белый лист бумаги (потолок). Вы увидите правильную раскраску флага.

Параметры статического режима АРУ можно определить, например, используя психофизический закон Стивенса. Динамический режим АРУ возникает, лишь тогда, когда входной сигнал значительно изменяется за время сравнимое с постоянной времени цепи АРУ. В случае зрения человека эта постоянная примерно равна одной секунде.

В-третьих, глаза человека постоянно двигаются. Повороты глаз влево - вправо, вверх - вниз и вокруг оптической оси производятся с помощью трех пар мышц каждого глаза. С одной стороны они позволяют стабилизировать поле зрения при наклонах и поворотах головы, а с другой отслеживать движущиеся объекты, сочетая плавные (нистагмы) и скачкообразные (саккады) движения. Особо следует отметить небольшие (менее 10 угловых минут) движения глаз так называемые микросаккады, дрейф и тремор (рис. 13), совершаемые бессознательно.

Рис. 13. Микросаккады – прямые линии. Дрейф – кривые линии. Тремор – зигзаги на кривых.

Если искусственно остановить движения глаз, человек перестает видеть неподвижное изображение через несколько секунд, поскольку все участки изображения приходят за это время к одинаковому серому фону из-за перехода АРУ зрительной системы из динамического в статический режим.

В-четвертых, бинокулярный (двухглазный) механизм зрения обеспечивает нам особое ощущение объемности изображения трехмерных объектов. То есть дает нам возможность определять относительную глубину точек поверхности объекта наблюдения.

Абсолютную глубину или дальность светящейся точки в физике часто соотносят с ее параллаксом – углом, под которым из этой точки виден базис наблюдения. Базисом зрительной системы является межглазное расстояние (65 мм). При наблюдении светящейся точки из двух точек пространства сначала определяют ее параллакс, а затем по параллаксу вычисляют расстояние до нее. Такой способ определения дистанции, оправданный  геометрией наблюдения, закрепился в астрономии в названии единицы длины – парсек (параллакс – секунда), соответствующей дистанции с которой базис (диаметр орбиты Земли) виден под углом в одну угловую секунду.

 Когда мы фиксируем взор на какой-либо точке, наши глаза скашиваются на угол конвергенции (рис. 14), который равен параллаксу этой точки.

Рис. 14. Бинокулярная диспаратность – основа стереоскопического зрения.

Все другие точки пространства, которые кажутся нам находящимися на одинаковом с точкой фиксации расстоянии, находятся на некоторой поверхности, называемой гороптером. Гороптер можно определить опытным путем. Его форма зависит от расстояния до наблюдаемой точки. Хотя мы смотрим двумя глазами, но обычно видим один не двоящийся мир. Мы как бы видим его одним циклопическим глазом. Волшебство этого глаза в том, что он дает нам ощущение объемности и слитности изображения. Его серединное положение (рис. 14) может меняться при амблиопии, смещаясь в сторону ведущего глаза.

Задав положение циклопического глаза и его линию визирования выбранной точки пространства можно ввести понятие диспаратности для пары изображений левого и правого глаза этой точки.  Диспаратность равна сумме модулей отклонений этих изображений от изображений точки гороптера, пересекаемой линий визирования циклопического глаза. Для точки пространства дальше гороптера диспаратности присваивается положительное значение, а для точки ближе гороптера отрицательное. Можно показать, что диспаратность точки В (С) на рис. 14 равна разности параллаксов точек А и В (С), то есть так называемому дифференциальному параллаксу.

Человек способен оценивать диспаратность точек локальных особенностей поверхности объекта наблюдения с помощью специальных бинокулярных нейронов зрительной коры головного мозга. Каждый такой нейрон работает, получая одновременно сигналы рецептивных полей левого и правого глаза. Весовые функции этих полей часто представляют действительной и мнимой  частями комплексного вейвлета (wevalet – всплеск) Габора. Эти функции не обладают круговой симметрией, в отличии от весовых функций первичных рецептивных полей ганглиозных нейронов сетчатки, но на уровне коры мозга может происходить синтез из первичных других рецептивных полей с необходимыми функциями.

Здесь мы предложим модель определения диспаратности с экспоненциальными весовыми функциями рецептивных полей левого и правого глаза. На рис. 15 вверху слева показан график поверхности такой функции. Для наглядности поверхность модулирована по яркости в соответствии с высотой ее точек. Справа вид графика сверху, дополненный  линиями равного уровня. Снизу изображена модель, на которой кроме рецептивных полей левого и правого глаза показаны элементы логарифмирования и вычитания входных сигналов. Выходы модели соответствуют двум отдельным бинокулярным нейронам. Один  нейрон (+Δ) реагирует на положительную разность входных сигналов, которая пропорциональна положительной диспаратности точек изображений светлого объекта (линии) на рецептивных полях. Другой нейрон (–Δ) реагирует на отрицательную разность входных сигналов, если диспаратность светлого объекта отрицательна.

Рис. 15. Модель определения диспаратности светлого объекта.

Совокупность реакций соответствующих бинокулярных нейронов дает карту положительных или отрицательных диспаратностей по полю зрения, которая аналогична картам глубины, приведенным выше, но отличается от них фрагментарностью соответствующей местоположению в поле зрения локальных особенностей яркости. Модель не реагирует на диспаратность изображений точек однородно окрашенной поверхности, что соответствует свойству нашего зрения. Анализ работы модели при различных оптических сигналах показывает, что минимизация ошибок определения диспаратности достигается при размере локальных неоднородностей яркости окраски объекта много меньше размера рецептивных полей. Кроме того угловой интервал между неоднородностями должен быть много меньше углового значения диспаратностей. Эффективным средством минимизации ошибок является выделение контуров неоднородностей. Именно такую операцию производит совместное действие АРУ зрительной системы и механизма микросаккад. Обратим внимание на то, что максимальная амплитуда микросаккад (рис. 13) одного порядка с максимальной глубиной зоны слияния (рис. 14) – 10 угловых минут. Последнее обстоятельство, наряду с конфигурацией траекторий микросаккад и дрейфа, позволяет эффективно усреднять карты диспаратностей по времени.

На рис. 15 приведена схема модели реагирующей на повышенную яркость или локальное включение света. Модель, реагирующая на пониженную яркость (темный объект) или локальное выключение света отличается от нее наличием инверторов по входам сигналов.

Поггио и Фишер (1977) обнаружили четыре типа бинокулярных нейронов с модуляционными характеристиками, приведенными на рис. 16. Наша модель объясняет возбуждение нейрона на дальнюю и юлижнюю диспаратности. Модель, получающаяся суммированием выходных сигналов +Δ и –Δ, объясняет торможение нейрона на нулевую диспаратность, а эта же модель с инверсией выходного сигнала объясняет возбуждение нейрона на нулевую диспаратность.

Рис. 16. Модуляционные характеристики бинокулярных нейронов.

Особо отметим, что приведенная модель обладают инвариантностью по отношению к изменениям амплитуды и местоположения оптических сигналов. Так как вычисляемая разность логарифмов двух величин равна отношению этих величин, то одинаковые коэффициенты яркости и сдвига оптических сигналов сокращаются. Коэффициент разности сдвига, экспоненциального вида, при логарифмировании дает линейную зависимость выходных сигналов модели от диспаратности.

Бинокулярное зрение человека, обеспечивающее фузию (слияние) изображений, формируемых мозгом с помощью каждого из двух его глаз, представляет собой весьма сложный процесс, требующий изучения. Для проектирования системы объемного телевидения важно то, что глубина видимого пространства может быть разделена на три зоны. Наблюдение до трех метров, сопровождается изменением, как конвергенции, так и аккомодации. От трех до шести метров изменяется только конвергенция. До 1300 –2600 метровмы способны видеть рельефность (глубину) сцены, благодаря оценке диспаратности. Разрешение по глубине (диспаратности) зрительной системы человека варьируется от 3 до 30 угловых секунд у разных людей. Эти данные позволяют рассчитать число различимых человеком планов по глубине. Расчет показывает, что на расстояниях от1 метрадо «бесконечности» число планов равно 450 при разрешении по глубине в 30 угловых секунд.

Отметим, что, например, конструкция объёмного монитора ПКБ «Рельеф» обеспечивает возможность создания сотен и даже тысяч планов разрешения по глубине, а конструкция монитора по технологии DepthCube обеспечивает 20 планов разрешения по глубине, при этом разработчики утверждают, что им удалось сгладить дискретность (кулисность) изображения, обусловленную низким разрешением по глубине, с помощью оригинального алгоритма сглаживания.

Важными являются пороговые характеристики зрения. Порог конвергенции оценивается смещением объекта в глубину на 3 угловые минуты. Порог аккомодации на 30 угловых минут. При превышении порога зрительная система автоматически перестраивается на новую глубину.

В школьных учебниках по биологии и даже в учебниках по телевидению глаз часто уподобляют фотоаппарату или телекамере. Как мы имели возможность убедиться это весьма упрощенное представление. При разработке системы объёмного телевидения, когда перед нами встает проблема создания трехмерной, динамичной модели (карты) физического мира, по существу, только зрительная система  человека служит нам примером ее решения. Пример может показаться трудно досягаемым  даже на первых (низких) уровнях зрительной системы. Вызывает восхищение, скажем, ее эффективность при решении задачи адаптации.