Рефлексивно-ділові ігри. Рефлексивні ігри

ПІДВЕДЕННЯ ПІДСУМКІВ СПРАВИ (РЕФЛЕКСІЯ)

«ДЕРЕВО НАСТРОЮ»

На аркуші ватману малюється дерево – кожна гілочка – це окремий день. Увечері дитина на сьогоднішній гілочці може намалювати листочок одного із трьох кольорів. зелений означає, що настрій у дитини відмінний, жовтий – добрий, червоний – так собі. До кінця зміни у вас з'явиться повна картина, як вона пройшла для ваших дітей.

«З НЕБА ЗІРОЧКА ВПАЛА»

Дітям говориться про те, що коли падають зірки, можна загадувати бажання і багато людей, побачивши падаючу зірку, загадують найзаповітніше бажання і воно обов'язково збувається. Хлопці пишуть на своїй зірці (вирізаній із картону), чого вони чекають від цієї зміни. Вожатий збирає всі зірки та вішає їх на стіну. Наприкінці зміни їх знімають, читають побажання та разом обговорюють, що збулося, а що ні

«ЧЕМОДАНЧИК У ДОРОГУ»

У чарівну валізку можна покласти що завгодно і вона збережеться в незмінному вигляді. Кожен вибирає три речі, які він хотів би забрати із заняття: гарний настрій, друга, стілець, на якому він сидить.

«ЗАКІНЧІТЬ ПРОПОЗИЦІЮ»

Сьогоднішній день – це:

Мій настрій сьогодні:

Я хотів би, щоб завтра:

Спираючись на висловлювання дітей, вожатий підбиває підсумок дня.

Попрощаємось як на Адаманських островах у Тихому океані.

Покладіть праву долоньку під долоню сусіда праворуч; а ліву – на долоню сусіда зліва. І з найдобрішими і найсвітлішими побажаннями, з найпозитивнішою енергією дуємо на долоню сусіда праворуч.

Конверт одкровень”

Вожатий заздалегідь заготовляє конверт із великою кількістю запитань. Бажано, щоб питання мали морально-етичний характер, типу:

що ти найбільше цінуєш у людях?

яка твоя найбільша ціль у житті?

які риси характеру людини тобі особливо неприємні?

на кого із відомих героїв минулого (фільму, книги) ти хотів би бути схожим і чому? і т.д.

"По одязі зустрічають..."

Цей етап роботи викликає інтерес та легке хвилювання у членів групи. У процесі пошуку свого «портрета» їм доводиться прочитати не один, а кілька листочків, «посперечатися» з кимось із претендентів за ту саму характеристику, зуміти відстояти своє право на неї. Під час обговорення ведучий пропонує відповісти на кілька запитань:

Чи ви задоволені тим, що написано на отриманому листочку?

Що здивувало, чи відбулися «відкриття»?

Що викликало найбільший інтерес у процесі роботи?

Які труднощі зазнавали під час виконання вправи?

Гороскоп

2-3 день зміни.

Діти розподіляються за групами – знаками зодіаку. Перед висловлюванням – коротка характеристика знака. Незвичайна характеристика дітей, форма запам'ятовування особистості виділення незвичайних якостей. Можна порівнювати за сезонами року, кольором очей тощо.

Рівень загону – низький.

Ситуативний

(Електричний стілець)

Один учасник знаходиться спиною до аудиторії, всі пишуть записки з короткою характеристикою цієї людини, які потім зачитуються ведучим (що коригує текст у разі некоректності по відношенню до людини).

Дає можливість дати оцінку поведінки тієї чи іншої дитини членам загону без амбіцій, образ, образ його особистої гідності.

Свічка – прожитий день.

Хлопці сідають у коло і, передаючи свічку один одному, розповідають по черзі, як пройшов для них день та оцінка його.

Свічка – бажання.

Передаючи свічку по колу до звичайної оцінки дня можна додати свої побажання на завтра. Можна почати словами: "Я хотіла б, щоб завтра..."

Павутинка.

Усі сідають у коло. Вожатий бере клубок ниток, намотує нитку на свій палець і передає цей клубок будь-якій дитині з кола ("Я хотів би передати цей клубок Каті, тому що…"). Далі другий учасник намотує свою ниточку на палець і передає клубок наступному, пояснюючи свій вибір. І так далі, поки всі не будуть пов'язані однією ниточкою. Можна побачити зв'язки, які виникли між хлопцями в загоні. Кожен може відрізати намотану на палець ниточку на пам'ять.

«П'ять хвилин одкровення»

Весь загін протягом усього дня складає в коробку у вигляді поштової скриньки записки з питаннями, які вони хотіли б поставити своїм вожатим на підсумковому вогнику. На вогнику на ці питання відповідають вожаті.

«Записки»

Виготовляються конверти та маленькі записочки. Кількість конвертів дорівнює кількості дітей у загоні. На записках кожна дитина пише побажання, слова подяки, враження від кожної людини із загону. Ці записки вкладаються в конверти, які творчо оформлені та підписані. Потім ці конверти у творчій формі вручаються їхнім власникам. Але тільки наступного дня дозволяється відкрити конверти та прочитати записки.

Якщо структура поінформованості має кінцеву складність, можна побудувати граф рефлексивної гри,наочно показує взаємозв'язок між діями агентів (як реальних, гак і фантомних), що у рівновазі.

Вершинами цього орієнтованого графа є дії г е?+, що відповідають попарно нетотожним структурам інформоване™ /., або компоненти структури інформованості в„або просто номер г реального чи фантомного агента, г е Z +.

Між вершинами проведено дуги за таким правилом: до кожної вершини хпроведено дуги від (п- 1) вершин, що відповідають структурам I mp jе N(/) Якщо дві вершини з'єднані двома протилежно спрямованими дугами, зображуватимемо одне ребро з двома стрілками.

Підкреслимо, що граф рефлексивної гри відповідає системі рівнянь (2.3.1) (тобто визначення інформаційної рівноваги), тоді як розв'язання її може й не існувати.

Отже, граф G,рефлексивної гри Г (див. визначення рефлексивної гри в попередньому розділі), структура поінформованості якої має кінцеву складність, визначається наступним чином:

  • - вершини графа G tвідповідають реальним та фантомним агентам, що беруть участь у рефлексивній грі, тобто попарно нетотожним структурам поінформованості;
  • - дуги графа G tвідображають взаємну поінформованість агентів: якщо від одного агента (реального або фантомного) існує шлях до іншого агента, другий адекватно поінформований про першого.

Якщо у вершинах графа G/зображати уявлення відповідного агента про стан природи, то рефлексивна гра Г,з кінцевою структурою поінформованості / може бути задана кортежем Р, = (N,(А)), е N,f(), e, v, G/),де N- безліч реальних агентів, X,- безліч допустимих дій z"-го агента, f(-) 0 х X -> 9?" - його цільова функція, /" е N, G,-граф рефлексивної гри.

Зазначимо, що у багатьох випадках рефлексивну гру зручніше (і наочно) описувати саме у термінах графа G/,а не дерева інформаційної структури.

Розглянемо кілька прикладів знаходження інформаційної рівноваги.

Приклади 2.4.1-2.4.3. У цих прикладах беруть участь три агенти з цільовими функціями такого виду:

де Xi> 0, / € N= (1, 2, 3}; ве 0 = (1, 2).

Для стислості називатимемо агента, який вважає, що попит низький (0= 1), песимістом, а вважає, що попит високий (0 = 2) – оптимістом. Таким чином, у прикладах 2.4.1-2.4.3 ситуації розрізняються лише внаслідок різних структур поінформованості.

Приклад 2.4.1. Нехай перші два агенти оптимісти, а третій - песиміст, причому всі троє однаково поінформовані. Тоді, відповідно до твердження 2.2.5, для будь-кого ае Iвиконуються тотожності / ст] = / ь / ст2 = h,Дз = h-

Відповідно до властивості 2 визначення інформаційної рівноваги, х *.

Видно, що будь-яка структура поінформованості тотожна одній із трьох, що утворюють базис: (/ь/2, Д). Тому складність даної структури поінформованості дорівнює трьом, а глибина дорівнює одиниці. Граф рефлексивної гри зображено на Рис. 8.

Мал. 8.


Таким чином, дії агентів у ситуації інформаційної рівноваги будуть такими: X! = х 2 =1/2, =0.*

Приклад 2.4.2. Нехай перші два агенти оптимісти, а третій - песиміст, який вважає всіх злочин агентів однаково поінформованими песимістами. Перші два агенти однаково поінформовані, причому обидва вони адекватно поінформовані про третій агент.

Маємо: I x ~ I 2 , I >h, h > h,1 I 2h? Граф рефлексивної гри зображено на Рис. 9.

Мал. 9.

Ці умови можна записати у вигляді наступних тотожностей, що мають місце для будь-якого ае I (скористаємося відповідними визначеннями та твердженнями 2.2.1, 2.2.2 та 2.2.5):

12а = ha, 1Ъа = ha, ha = ha, hla = ha, ha = h, ha2 = hi, hal = h-

Аналогічні співвідношення виконуються для рівноважних дій х„. Ліві частини цих тотожностей показують, що будь-яка структура 1 ппри |сг|>2 тотожна деякій структурі /„ |г|

Таким чином, складність даної структури поінформованості дорівнює п'яти, а глибина дорівнює двом.

Для знаходження інформаційної рівноваги треба вирішити таку систему рівнянь (див. вираз (2.3.1)):


Таким чином, дії реальних агентів у ситуації інформаційної рівноваги будуть наступними: Х) =х 2= 9/20, х 3 * = 1/5.

Приклад 2.4.3. Нехай усі троє агентів оптимісти, перший та другий взаємно поінформовані, другий та третій також взаємно поінформовані. На думку першого агента, третій вважає всіх трьох однаково поінформованими песимістами; також і перший агент, на думку третього, вважає всіх трьох однаково поінформованими песимістами.

Маємо: Д х Д, /2>

Ці умови можна записати у вигляді наступних тотожностей, що мають місце для будь-кого а е I(скористаємося відповідними визначеннями та твердженнями 2.2.1, 2.2.2 та 2.2.5):

Аналогічні співвідношення виконуються для рівноважних дій х п.

Ліві частини цих тотожностей показують, що будь-яка структура 1 Ппри |oj > 3 тотожна деякою структурою /„ |т| 1, А, / 3, / зь / 13, / Ь / 132? hn,/зв-

Отже, базис утворюють такі попарно різні структури: (/ ь />, /3, /зь /в, /lb)- Складність даної структури інформованості дорівнює шести, а глибина дорівнює трьом. Граф відповідної рефлексивної гри зображено Рис. 10.

Мал. 10.

Для знаходження інформаційної рівноваги треба вирішити таку систему рівнянь (див. вираз (2.3.1)):

Таким чином, дії реальних агентів у ситуації інформаційної рівноваги будуть наступними: х, = х3 = 17/35, х2 * = 12/35.

Завершивши опис графа рефлексивної гри, продовжимо дослідження властивостей інформаційної рівноваги.

Поліна Астанакулова
Ігри для дітей 5-7 років. Рефлексивні кола «Таємниця мого Я»

ІГРИ ДЛЯ ДІТЕЙ 5-7 років

РЕФЛЕКСИВНІ КРУГИ

« ТАЄМНИЦЯ МОГО»

«Я та інші».

Ціль:

1. Розвивати впевненість у собі, вміння висловлювати свою думку, здатність уважно вислуховувати своїх товаришів.

2. Розвивати уяву.

3. Виховувати доброзичливе ставлення одне до одного

Матеріал: Клубок ниток, спокійна музика

Зміст: Діти у колу. У руках у вихователя клубок ниток. Вихователь: Давайте дізнаємося, що ви найбільше любите Звучить музика та вихователь каже, що я люблю гуляти у лісі. Потім передає клубок дитині і кожен висловлює свою думку, потім клубок повертається до вихователя. Вийшла ось така павутинка. Павутинка сплела нас у єдине ціле. Тепер ми з вами єдині. Вона дуже тонка і будь-якої миті може розірватися. Тож давайте зробимо так, щоб ніхто ніколи не міг посварити нас один з одним і розірвати нашу дружбу. Діти заплющують очі і уявляють, що вони єдині (павутинку змотують у клубок).

«Я очима інших».

Ціль: Дати дітям уявлення про індивідуальність Неповторності кожного з них, розвивати впевненість у собі, формувати вміння приймати відмінну від своєї точки зору.

Матеріал: камінчик, килимки.

Зі словами: «Я дарую тобі камінчик, бо ти…»

Підсумок: за допомогою камінця ви багато сказали доброго та доброго

« Таємниця мого “я”» .

Ціль: Створити у групі довірчу обстановку, що дозволяє дітям виявити свої почуття і говорити про них, виховувати навички емпатичного спілкування, вміння прийняти та вислухати іншу людину; розвивати здатність розуміти себе.

Матеріал: підсвічник зі свічок, сірники, люстерко, класична музика

Цариця діставала чарівне дзеркальце та наказувала йому: «Світло мій дзеркальце, скажи, та всю правду доповісти Чи я на світі всіх миліший, усіх рум'яніший і біліший?» Педагог показує дітям «Чарівне дзеркальце»і каже: У мене теж є чарівне дзеркальце, за допомогою якого ми теж зможемо дізнатися багато цікавого один про одного і відповісти на питання: "Хто я?". Давай подивимося на полум'я свічки. Воно допоможе нам згадати про почуття – успіхи та не удачі”. Звучить музика та педагог розповідає про себе, потім кажуть діти. Ось ми розповіли про свої переваги і про недоліки і можемо виправити їх. Давайте уважніше ставитись один до одного. Діти беруться за руки і задувають свічку.

«Я та мої емоції».

Ціль: Вчити дітейговорити про свої почуття, розвивати здатність визначати емоції за схематичними зображеннями, збагачувати словник дітей.

Матеріал: піктограма, килимок, музика.

Зміст: Діти сидять у колу на килимках. У центрі картки із зображенням різних відтінків настроїв. Педагог пропонує взяти картки, які найбільше підходять найбільше вашому настрою. Після того, як діти візьмуть відповідну картку. Педагог робить висновок, який настрій у дітей - сумне, веселе, задумливе. А що треба для того, щоб настрій покращав? Давайте розсміємося і забудемо про поганий настрій.

«Я та інші».

Ціль: Формувати доброзичливе ставлення один до одного,

Розвивати в дітях вміння висловлювати своє ставлення до інших, (якщо потрібно критично, але тактовно.)

Матеріал: клубок ниток, спокійна музика

Зміст: Діти у колу. У руках у педагога клубок ниток. Вихователь: Ви дружите багато років, і ви все знаєте один одного Всі ви різні, знаєте переваги та недоліки один одного. А що ви могли б побажати один одному, щоб стати краще? Звучить музика, діти кажуть побажання одне одному. Педагог говорить побажання дитині, що сидить поруч. (приклад: щоб він менше плакав і більше грав із дітьми.)Потім дорослий передає клубок дитині (дитина каже побажання сидячому поруч)і т. д., потім клубок повертається до педагога. Діти заплющують очі і уявляють, що вони єдині.

«Світ моїх фантазій».

Ціль: Розвивати уяву, розкутість, комунікативні навички, виробляти доброзичливе ставлення одне до одного

Матеріал: стільчик на кожну дитину, квітка - семиквітка.

Лети, лети, пелюстка,

Через захід на схід,

Через північ, через південь,

Повертайся, зробивши коло,

Лише торкнешся землі,

Бути по-моєму вели!

Вихователь: Уявіть собі, що є чарівник, який виконає будь-які бажання Для цього треба відірвати одну пелюсток і загадати бажання і розповісти про свою мрію. «Діти по черзі відривають пелюстки та розповідають, чого б вони хотіли».

Вихователь: Діти, яке бажання вам найбільше сподобалося?

Кожен мав різні бажання, в одних про себе, в інших вони пов'язані з друзями, з батьками. Але всі ваші бажання обов'язково здійсняться.

«Як я можу змінити світ на краще?»

Ціль: Розвивати у дітей уяву, Вміння вислуховувати думку іншого, приймати іншу точку зору, відмінну від своєї, формувати згуртованість групи.

Матеріал: «Чарівні»окуляри.

Зміст: діти сидять у колу. Педагог показує «Чарівні» окуляри: «Той, хто їх одягне, побачить в інших людях тільки добре, навіть те, що не завжди одразу помітно. Кожен із вас приміряє окуляри і розгляне інших». Діти по черзі одягають окуляри і називають переваги один одного. Вихователь: «А зараз ми знову одягнемо окуляри і подивимося на світ іншими очима Що б ви хотіли змінити у світі, щоб він став кращим?» (Діти відповідають)

Це все допомагає нам побачити в інших щось хороше.

Що таке радість?

Ціль: Розвивати вміння адекватно виражати свій емоційний стан, розуміти емоційний стан іншої людини

Матеріал: Фото радісних осіб дітей, піктограма «радість», сонечко, червоний фломастер.

Вихователь:

Яке почуття зображено на них? (Посмішка)

Що для цього треба зробити? (Посміхнутися)

Привітайте один з одним. Кожна дитина повертається до друга праворуч, називає його на ім'я і каже, що радий його бачити.

Вихователь: Тепер розкажіть, що таке радість? Закінчіть пропозиція: «Я тішуся, коли…». (Діти закінчують пропозиції). Педагог записує побажання на листочках і прикріплює до промінчиків. Кожен має свою радість, але вона передається один одному.

Який "Я"»

Ціль: створення позитивного емоційного настрою, формує групу та підвищує особисту самооцінку

Матеріал: Дзеркало.

Якого кольору ока?

Які вони (великі, невеликі);

Якого кольору волосся?

Які вони (довгі, короткі, прямі, хвилясті);

Якої форми обличчя (кругле, овальне).

"Моє ім'я"

Ціль: гра допомагає запам'ятовувати імена своїх товаришів, викликає позитивні емоціїта формує почуття групової єдності.

Зміст: діти сидять у колу. Ведучий вибирає одну дитину, інші вигадують ласкаві похідні від його імені. Потім дитина каже, яке ім'я йому було найприємніше чути. Так вигадують імена кожній дитині. Далі ведучий розповідає про те, що імена зростають разом із дітьми. «Коли ви підростете, ваше ім'я теж виросте і стане повним, вас називатимуть на ім'я та по батькові. Слово «по батькові»походить від слова «батько», воно дається на ім'я батька. Діти називають своє ім'я та по батькові.

"Зроби, як я"

Ціль

"Зрозумій мене"

Ціль: розвиток уяви, виразних рухів, групової згуртованості

"Я в майбутньому"

Ціль: розвиток групової згуртованості, уяви

"Ми різні"

Ціль: гра дає відчути свою значущість, викликає позитивні емоції, підвищує самооцінку

Хто з нас найвищий?

Хто з нас найнижчий?

У кого з нас найтемніші (світлі)волосся?

Хто має бант тощо.

Ведучий підбиває підсумок, що ми всі різні, але всі дуже хороші, цікаві і головне - ми разом!

Новіков Д.А., Чхартішвілі А.Г.
Рефлексивні ігри
М.: СИНТЕГ, 2003. - 160 с.

Матеріали надані сайтом "Теорія управління організаційними системами"

Анотація

Монографія присвячена обговоренню сучасних підходів до математичного моделювання рефлексії. Автори вводять на розгляд новий клас теоретико-ігрових моделей - рефлексивні ігри, що описують взаємодію суб'єктів (агентів), що приймають рішення на підставі ієрархії уявлень про суттєві параметри, уявлення про уявлення і т.д.

Аналіз поведінки фантомних агентів, що існують у уявленнях інших реальних або фантомних агентів, та властивостей інформаційної структури, що відображає взаємну інформованість реальних та фантомних агентів, дозволяє запропонувати як рішення рефлексивної гри інформаційну рівновагу, яке є узагальненням низки відомих концепцій рівноваги в некооперативних іграх.

Рефлексивні ігри дають можливість:

Моделювати поведінку суб'єктів, що рефлексують;
- дослідити залежність виграшів агентів від рангів їхньої рефлексії;
- ставити та вирішувати завдання рефлексивного управління;
- однаково описувати багато явищ, пов'язані з рефлексією: приховане управління, інформаційне управління через ЗМІ, рефлексію у психології, художніх творах та ін.

Книга адресована фахівцям у галузі математичного моделювання та управління соціально-економічними системами, а також студентам вишів та аспірантам.

ВСТУП
РОЗДІЛ 1. Інформація щодо прийняття рішень
1.1. Індивідуальне прийняття рішень: модель раціональної поведінки
1.2. Інтерактивне прийняття рішень: ігри та рівноваги
1.3. Загальні підходи до опису поінформованості
РОЗДІЛ 2. Стратегічна рефлексія
2.1. Стратегічна рефлексія в іграх двох осіб
2.2. Рефлексія у біматричних іграх
2.3. Обмеженість рангу рефлексії
РОЗДІЛ 3. Інформаційна рефлексія
3.1. Інформаційна рефлексія в іграх двох осіб
3.2. Інформаційна структура гри
3.3. Інформаційна рівновага
3.4. Граф рефлексивної гри
3.5. Регулярні структури поінформованості
3.6. Ранг рефлексії та інформаційна рівновага
3.7. Рефлексивне управління
РОЗДІЛ 4. Прикладні моделі рефлексивних ігор
4.1. Приховане керування
4.2. ЗМІ та інформаційне управління
4.3. Рефлексія у психології
4.3.1. Психологія шахової творчості
4.3.2. Трансакційний аналіз
4.3.3. Вікно Джохарі
4.3.4. Модель етичного вибору
4.4. Рефлексія у художніх творах
ВИСНОВОК
ЛІТЕРАТУРА

Електронна версія книги:[Завантажити, PDF, 29 стор., 250 Кбайт].

Для перегляду книги у форматі PDF потрібна програма Adobe Acrobat Reader, нову версіюякої можна безкоштовно скачати із сайту компанії Adobe.

Ви можете отримати book review і share your experiences. Інші readers will always be interested in your opinion of the book s you"ve read. Whether you"ve loved the book or not, if you give your honest and detailedтому, що люди будуть find new books що є право для них.

Російська Академія наук Інститут проблем управління ім. В.А. Трапезнікова Д.А. НОВІКОВ, О.Г. ЧХАРТИШВІЛІ РЕФЛЕКСИВНІ ГРИ СИНТЕГ Москва - 2003 УДК 519 ББК 22.18 Н 73 Новіков Д.А., Чхартішвілі А.Г. Рефлексивні Н 73 ігри. М.: СИНТЕГ, 2003. - 149 с. ISBN 5-89638-63-1 Монографія присвячена обговоренню сучасних підходів до математичного моделювання рефлексії. Автори вводять на розгляд новий клас теоретико-ігрових моделей – рефлексивні ігри, що описують взаємодію суб'єктів (агентів), що приймають рішення на підставі ієрархії уявлень про суттєві параметри, уявлення про уявлення тощо. Аналіз поведінки фантомних агентів, що існують у уявленнях інших реальних або фантомних агентів, та властивостей інформаційної структури, що відображає взаємну інформованість реальних та фантомних агентів, дозволяє запропонувати як рішення рефлексивної гри інформаційну рівновагу, яке є узагальненням низки відомих концепцій рівноваги в некооперативних іграх. Рефлексивні ігри дають можливість: - моделювати поведінку суб'єктів, що рефлексують; - дослідити залежність виграшів агентів від рангів їхньої рефлексії; - ставити та вирішувати завдання рефлексивного управління; - однаково описувати багато явищ, пов'язаних з рефлексією: приховане управління, інформаційне управління через ЗМІ, рефлексію в психології, художніх творах та ін. Рецензенти: д.т.н., проф. В.М. Бурков, д.т.н., проф. А.В. Щепкін УДК 519 ББК 22.18 Н 73 ISBN 5-89638-63-1 Ó Д.А.Новіков, А.Г. Чхартишвілі, 2 2003 ЗМІСТ ВСТУП............................................ .................................................. .......... 4 РОЗДІЛ 1. Інформація щодо прийняття рішень................................ ........... 21 1.1. Індивідуальне прийняття рішень: модель раціональної поведінки........................................... .................................................. ............................... 21 1.2. Інтерактивне прийняття рішень: ігри та рівноваги 24 1.3. Загальні підходи до опису поінформованості 31 ГЛАВА 2. Стратегічна рефлексія...... .................................................. 34 2.1. Стратегічна рефлексія в іграх двох осіб ........................................... 34 2.2. Рефлексія у біматричних іграх. .................................................. ........... 41 2.3. Обмеженість рангу рефлексії............................................... ............. 57 РОЗДІЛ 3. Інформаційна рефлексія............................... ...................... 60 3.1. Інформаційна рефлексія в іграх двох осіб 60 3.2. Інформаційна структура гри............................................... ............... 64 3.3. Інформаційна рівновага................................................ 71 3.4. Граф рефлексивної гри............................................... ........................... 76 3.5. Регулярні структури поінформованості 82 3.6. Ранг рефлексії та інформаційна рівновага............................ 91 3.7. Рефлексивне управління................................................ ....................... 102 РОЗДІЛ 4. Прикладні моделі рефлексивних ігор................... ............ 106 4.1. Приховане керування................................................ ................................ 106 4.2. ЗМІ та інформаційне управління.............................................. ...... 117 4.3. Рефлексія в психології............................................... ........................... 121 4.3.1. Психологія шахової творчості............................................. 121 4.3 .2. Трансакційний аналіз................................................ ................. 124 4.3.3. Вікно Джохарі................................................ .................................. 126 4.3.4. Модель етичного вибору............................................... .............. 128 4.4. Рефлексія у художніх творах....................................... 129 ВИСНОВОК..... .................................................. ...................................... 137 ЛІТЕРАТУРА.......... .................................................. ................................... 142 3 – Пескарі вільно граються, у цьому їхня радість! - Ти ж не риба, звідки тобі знати, в чому її радість? - Ти ж не я, звідки знати, що я знаю, а чого не знаю? З даоської притчі - Справа, зрозуміло, в тому, шановний архієпископ, що Ви вірите в те, у що Ви вірите, тому що Ви були такі виховані. - Може бути і так. Але залишається фактом, що і Ви вірите в те, що я вірю в те, у що я вірю, тому що я був такий вихований, тому що Ви були такими вихованими. З книги Д. Майєрса «Соціальна психологія» ВСТУП Ця робота присвячена обговоренню сучасних підходів до математичного моделювання рефлексії та, в першу чергу, введенню до розгляду нового класу теоретико-ігрових моделей – рефлексивних ігор, що описують взаємодію суб'єктів, що приймають рішення на підставі ієрархії суттєві параметри, уявлень про уявлення і т.д. Рефлексія. Однією з фундаментальних властивостей буття людини є те, що поряд із природною («об'єктивною») реальністю існує її відображення у свідомості. При цьому між природною реальністю та її чином у свідомості (вважатимемо цей образ частиною особливої ​​– рефлексивної реальності) існує неминучий зазор, розбіжність. Цілеспрямоване вивчення цього феномена традиційно пов'язані з терміном «рефлексія», якому «Філософський словник» дає таке визначення: «РЕФЛЕКСІЯ (лат. reflexio – звернення тому). Термін, що означає відображення, а також вивчення пізнавального акту». Термін «рефлексія» запроваджено Дж. Локком; у різних філософських системах (у Дж. Локка, Г. Лейбніца, Д. Юма, Г. Гегеля та ін) він мав різний зміст. Систематичний опис рефлексії з погляду психології почалося 60-ті роки ХХ століття (школа 4 В.А. Лефевра). Крім того, слід зазначити, що існує розуміння рефлексії в іншому значенні, що стосується рефлексу – «реакції організму на збудження рецепторів». У цій роботі використовується перше (філософське) визначення рефлексії. Для прояснення розуміння суті рефлексії розглянемо спочатку ситуацію з одним суб'єктом. Він має уявлення про природну реальність, але може і усвідомлювати (відбивати, рефлексувати) ці уявлення, і навіть усвідомлювати усвідомлення цих уявлень тощо. Так формується рефлексивна дійсність. Рефлексія суб'єкта щодо своїх власних уявлень про реальність, принципи своєї діяльності тощо. називається авторефлексією чи рефлексією першого роду. Зазначимо, що у більшості гуманітарних досліджень мова йде , в першу чергу, про авторефлексію, під якою у філософії розуміється процес роздуми індивіда про те, що відбувається в його свідомості. Рефлексія другого роду має місце щодо уявлень про реальність, принципи прийняття рішень, авторефлексії тощо. інших суб'єктів. Наведемо приклади рефлексії другого роду, що ілюструють, що у багатьох випадках правильні власні умовиводи можна зробити, тільки якщо зайняти позицію інших суб'єктів і проаналізувати їх можливі міркування. Першим прикладом є класична «завдання про брудних осіб» (Dirty Face Game), іноді її називають «завданням про мудреців і ковпаків» або «про чоловіків і невірних дружин». Опишемо її, слідуючи. «Уявімо, що в купе вагона Вікторіанської доби перебувають Боб та його племінниця Аліса. У кожного забруднене обличчя. Однак ніхто не червоніє від сорому, хоча будь-який Вікторіанський пасажир почервонів би, знаючи, що інша людина бачить його брудною. Звідси ми робимо висновок, що ніхто з пасажирів не знає, що його брудне обличчя, хоча кожен бачить брудне обличчя свого компаньйона. У цей час у купе заглядає Провідник і оголошує, що у купе перебуває людина з брудним обличчям. Після цього Аліса почервоніла. Вона зрозуміла, що обличчя її забруднене. Але чому вона це зрозуміла? Хіба Провідник не повідомив, що вона вже знала? 5 Простежимо ланцюжок міркувань Аліси. Аліса: Припустимо, моє обличчя чисте. Тоді Боб, знаючи, що хтось із нас брудний, повинен зробити висновок, що брудний він і почервоніти. Якщо він не червоніє, значить, моя посилка про моє чисте обличчя хибна, моє обличчя брудне і я маю почервоніти. Провідник додав до інформації, відомої Алісі, інформацію про знання Боба. До цього вона не знала, що Боб знає, що хтось із них забруднений. Коротше, повідомлення провідника перетворило знання у тому, що у купе є людина з брудним обличчям, на загальне знання». Другий хрестоматійний приклад – «завдання про скоординовану атаку» (Coordinated Attack Problem); існують близькі до неї завдання про оптимальний протокол обміну інформацією – Electronic Mail Game та ін. (Див. огляди в ). Ситуація виглядає так. На вершинах двох пагорбів розташовані дві дивізії, а в долині розташувався супротивник. Здобути перемогу можна, тільки якщо обидві дивізії нападуть на супротивника одночасно. Генерал - командир першої дивізії - посилає генералу - командиру другої дивізії - гінця з повідомленням: «Атакуємо на світанку». Оскільки гонець то, можливо перехоплений противником, першому генералу необхідно дочекатися від другого генерала повідомлення у тому, що перше повідомлення отримано. Але оскільки друге повідомлення може бути перехоплено противником, то другому генералу необхідно отримати від першого підтвердження, що той отримав підтвердження. І так далі до нескінченності. Завдання у тому, щоб визначити, після якого числа повідомлень (підтверджень) генералам має сенс атакувати противника. Висновок наступний – в описаних умовах скоординована атака неможлива, а виходом є використання ймовірнісних моделей. Третє класичне завдання – «завдання про двох брокерів» (див. також моделі спекуляцій). Припустимо, що у двох брокерів, які грають на фондовій біржі, є власні експертні системи, які використовуються для підтримки прийняття рішень. Трапляється так, що мережевий адміністратор нелегально копіює обидві експертні системи та продає кожному брокеру експертну систему свого опонента. Після цього адміністратор намагається продати кожному з них таку інформацію – Ваш опонент має Вашу експертну систему. Потім адміністратор намагається 6 продати інформацію – Ваш опонент знає, що Ви маєте його експертну систему, і т.д. Питання полягає в тому, як брокерам слід використовувати інформацію, яка отримується від адміністратора, а також яка інформація на якій ітерації є суттєвою? Завершивши розгляд прикладів рефлексії другого роду, обговоримо, у яких ситуаціях рефлексія є суттєвою. Якщо єдиний рефлексуючий суб'єкт є економічним агентом, який прагне максимізувати свою цільову функцію, обираючи одне з етично допустимих дій, то природна реальність входить у цільову функцію як певний параметр, а результати рефлексії (уявлення про уявлення тощо) аргументами цільової функції є. Тоді можна сказати, що авторефлексія «не потрібна», оскільки вона не змінює дії, яку вибирає агент. Зауважимо, що залежність дій суб'єкта від рефлексії може бути у ситуації, коли дії етично нерівноцінні, тобто поруч із утилітарним аспектом існує деонтологічний (етичний) – див. Проте економічні рішення, зазвичай, етично нейтральні, тому розглянемо взаємодія кількох суб'єктів. Якщо суб'єктів кілька (ситуація прийняття рішення є інтерактивною), то цільову функцію кожного суб'єкта входять дії інших суб'єктів, тобто ці дії є частиною природної реальності (хоча самі вони, зрозуміло, зумовлені рефлексивною реальністю). При цьому рефлексія (і, отже, дослідження рефлексивної реальності) стає необхідною. Розглянемо основні підходи до математичного моделювання ефектів рефлексії. Теорія ігор. Формальні (математичні) моделі поведінки людини створюються і вивчаються вже понад півтора століття (див. огляд) і знаходять все більше застосування як у теорії управління, економіці, психології, соціології і т.д., так і при вирішенні конкретних прикладних завдань. Найбільш інтенсивний розвиток спостерігається починаючи з 40-х років XX століття - моменту появи теорії ігор, який зазвичай датують 1944 роком (вихід першого видання книги Джона фон Неймана та Оскара Моргенштерна "Теорія ігор та економічна поведінка"). 7 Під грою в даній роботі будемо розуміти взаємодію сторін, інтереси яких не збігаються (зазначимо, що можливе й інше розуміння гри – як «виду непродуктивної діяльності, мотив якої полягає не в її результатах, а в самому процесі» – див. також , де поняття гри трактується набагато ширше). Теорія ігор – розділ прикладної математики, який досліджує моделі прийняття рішень за умов розбіжності інтересів сторін (гравців), коли кожна сторона прагне впливати в розвитку ситуації у інтересах . Далі для позначення суб'єкта, який ухвалює рішення (гравця), використовується термін «агент». У цій роботі розглядаються некооперативні статичні ігри у нормальній формі, тобто ігри, у яких агенти одноразово, одночасно незалежно вибирають свої дії. Таким чином, основне завдання теорії ігор полягає в описі взаємодії кількох агентів, інтереси яких не збігаються, а результати діяльності (виграш, корисність тощо) кожного залежать у загальному випадку від усіх дій. Підсумком такого опису є прогноз розумного результату гри – так званого рішення гри (рівноваги). Опис гри полягає в завданні наступних параметрів: - множини агентів; - переваг агентів (залежностей виграшів від дій): у своїй передбачається (і цим відбивається цілеспрямованість поведінки), кожен агент зацікавлений у максимізації свого выигрыша; - множин допустимих дій агентів; - поінформованості агентів (тієї інформації, якою вони володіють на момент ухвалення рішень про дії, що обираються); - Порядку функціонування (порядок ходів - послідовність вибору дій). Умовно кажучи, безліч агентів визначає, хто бере участь у грі. Уподобання відображають, що хочуть агенти, безліч допустимих дій – що вони можуть, поінформованість – що вони знають, а порядок функціонування – коли вони вибирають дії. 8 Перелічені параметри задають гру, але вони недостатні для того, щоб передбачити її результат - рішення гри (або рівновага гри), тобто безліч раціональних та стійких з тієї чи іншої точки зору дій агентів. На сьогоднішній день у теорії ігор не існує універсальної концепції рівноваги – приймаючи ті чи інші припущення про принципи прийняття агентами рішень, можна отримувати різні рішення. Тому основним завданням будь-якого теоретико-ігрового дослідження (включаючи справжню роботу) є побудова рівноваги. Оскільки рефлексивні ігри визначаються як таке інтерактивне взаємодія агентів, у якому приймають рішення з урахуванням ієрархії своїх уявлень, то істотною є інформованість агентів. Тому зупинимося на її якісному обговоренні докладніше. Роль поінформованості. Спільне знання. У теорії ігор, філософії, психології, розподілених системах та інших галузях науки (див. огляд в) суттєві не тільки уявлення (beliefs) агентів про суттєві параметри, але і їх уявлення про уявлення інших агентів і т.д. Сукупність цих уявлень називається ієрархією уявлень (hierarchy of beliefs) і у цій роботі моделюється деревом інформаційної структури рефлексивної гри (див. розділ 3.2). Іншими словами, у ситуаціях інтерактивного прийняття рішень (моделюються в теорії ігор) кожен агент перед вибором своєї дії має передбачити поведінку опонентів. Для цього він повинен мати певні уявлення про бачення гри опонентами. Але опоненти мають зробити те саме, тому невизначеність щодо тієї гри, яка буде розіграна, породжує нескінченну ієрархію уявлень учасників гри. Наведемо приклад ієрархії уявлень. Припустимо, що є два агенти - А і Б. Кожен з них може мати власні нерефлексивні уявлення про невизначений параметр q, який ми будемо надалі називати станом природи (state of nature, state of the world). Позначимо ці уявлення qА та qБ відповідно. Але кожен із агентів у рамках процесу рефлексії першого рангу може задуматися про уявлення опонента. Ці уявлення (уявлення другого порядку) позначимо qАБ та qБА, де qАБ – уявлення агента А про уявлення агента Б, 9 qБА – уявлення агента Б про уявлення агента А. Але цим справа не обмежується – кожен із агентів у рамках процесу подальшої рефлексії (рефлексії другого рангу) може замислитися над тим, якими є уявлення опонента про його уявлення. Так породжуються уявлення третього порядку – qАБА та qБАБ. Процес породження уявлень вищих порядків може продовжуватися до безкінечності (ніяких логічних обмежень збільшення рангу рефлексії немає). Сукупність всіх уявлень - qА, qБ, qАБ, qБА, qАБА, qБАБ і т.д. - Утворює ієрархію уявлень. Окремим випадком поінформованості - коли всі уявлення, уявлення про уявлення і т.д. до нескінченності збігаються – є загальне знання. Більш коректно, термін «загальне знання» (common knowledge), введений для позначення факту, що задовольняє наступним вимогам: 1) про нього відомо всім агентам; 2) всім агентам відомо 1; 3) всім агентам відомо 2 і т.д. до нескінченності Формальна модель загального знання запропонована і отримала розвиток у безлічі робіт – див. Моделям інформованості агентів – ієрархії уявлень та загальному знанню – теоретично ігор присвячена, фактично цілком, справжня робота, тому наведемо приклади, що ілюструють роль загального знання за іншими галузях науки – філософії, психології та інших. (див. також огляд ). З погляду філософії загальне знання аналізувалося щодо угод. Розглянемо наступний приклад. У Правилах Дорожнього Руху записано, що кожен учасник дорожнього руху повинен дотримуватись цих правил, а також вправі розраховувати на те, що їх дотримуються інші учасники дорожнього руху. Але інші учасники дорожнього руху також повинні бути впевнені в тому, що інші дотримуються правил тощо. до нескінченності. Отже, угода «дотримуватися ПДР» має бути загальним знанням. У психології існує поняття дискурсу – «(від латів. discursus – міркування, аргумент) – опосередковане минулим досвідом мовленнєве мислення людини; виступає як процес пов'язаного логічного міркування, в якому кожна наступна думка обумовлена ​​попередньою» . Роль загального знання у розумінні дискурсу ілюструється наступним прикладом. Двоє людей виходять із кінотеатру. Один питає іншого: "Як тобі фільм?". Для того, щоб друга людина зрозуміла питання, вона повинна зрозуміти, що її запитують про той фільм, який вони щойно разом подивилися. Крім того, він має розуміти, що це розуміє перший. Питання, що задає, у свою чергу, має бути впевненим, що другий зрозуміє, що йдеться про той фільм, який вони подивилися, і т.д. Тобто для адекватної взаємодії (спілкування) «фільм» має бути загальним знанням (люди мають досягти угоди про використання мови). Взаємна поінформованість агентів є суттєвою також у розподілених обчислювальних системах, у штучному інтелекті та інших галузях. Теоретично ігор, зазвичай, передбачається, що все1 параметри гри є загальним знанням, тобто кожному агенту відомі всі параметри гри, і навіть те, що відомо всім агентам, тощо. до нескінченності. Таке припущення відповідає об'єктивному опису гри і дозволяє використовувати концепцію рівноваги Неша2 як прогнозованого результату некооперативної гри (тобто ігри, у якій неможливі переговори між агентами з метою створення коаліцій, обміну інформацією, спільних дій, перерозподілу виграшів тощо). Таким чином, припущення про загальне знання дозволяє стверджувати, що всі агенти знають, в яку гру вони грають, та їх уявлення про гру збігаються. Замість дії агента можна розглядати щось складніше – його стратегію, тобто відображення наявної в агента інформації у його допустимих дій. Прикладами можуть бути: стратегії в багатокроковій грі, змішані стратегії, стратегії в метаграх Ховарда (див. також інформа1) Якщо у вихідній моделі присутні невизначені фактори, то використовуються процедури усунення невизначеності, які дозволяють отримати детерміновану модель. 2 Вектор дій агентів є рівновагою Неша, якщо нікому не вигідно одностороннє (тобто за умови, що інші агенти вибирають відповідні компоненти рівноваги) відхилення від рівноваги – див. коректне визначення нижче. 11 ційні розширення ігор). Проте й у випадках правила гри є загальним знанням. Нарешті, можна вважати, що гра вибирається випадково відповідно до деякого розподілу, який є загальним знанням – так звані Байєсові ігри. У випадку кожен з агентів може мати власні уявлення про параметри гри, кожному з яких відповідає деяке суб'єктивне опис гри . При цьому виявляється, що агенти беруть участь у грі, але об'єктивно не знають у якій, або по-різному представляють гру, що розігрується – її правила, цілі, ролі та поінформованість опонентів і т.д. Універсальних підходів до побудови рівноваг за недостатнього загального знання нині теоретично ігор немає. З іншого боку, в рамках «рефлексивної традиції» гуманітарних наук для кожного агента навколишній світ містить (включає) інших агентів, і уявлення про інших агентів відображаються в процесі рефлексії (відмінності уявлень можуть бути обумовлені, зокрема, неоднаковою інформованістю). Однак досі конструктивних формальних результатів у цій галузі отримано не було. Отже, виникає необхідність розробки та дослідження математичних моделей ігор, у яких інформованість агентів не є загальним знанням та агенти приймають рішення на основі ієрархії своїх уявлень. Цей клас ігор назвемо рефлексивними іграми (формальне визначення наведено у розділі 3.2 цієї роботи). Слід визнати, що термін «рефлексивні ігри» запроваджено В.А. Лефевром 1965 р. в. Однак у цій роботі, соціальній та роботах тієї самої автора міститься, переважно, якісне обговорення ефектів рефлексії у взаємодії суб'єктів, і жодної загальної концепції рішення цього класу ігор запропоновано був. Те ж зауваження справедливе і для , в яких розглядалася низка окремих випадків поінформованості учасників гри. Таким чином, актуальним є вивчення рефлексивних ігор та побудова для них єдиної концепції рівноваги, що мотивує справжнє дослідження. 12 Перш ніж переходити до викладу основного змісту роботи, обговоримо на якісному рівні основні підходи, що використовуються нижче. Основні підходи та структура роботи. У першому розділі «Інформація у прийнятті рішень», що носить, в основному, оглядовий та вступний характер, наводяться моделі індивідуального та інтерактивного прийняття рішень, проводиться аналіз поінформованості, необхідної для реалізації тих чи інших відомих концепцій рівноваги, а також обговорюються відомі моделі загального знання та ієрархії уявлень. Як зазначено вище, рефлексивною є гра, у якій інформованість агентів перестав бути загальним знанием3 і агенти приймають рішення з урахуванням ієрархії своїх уявлень. З погляду теорії ігор та рефлексивних моделей прийняття рішень доцільно розділяти стратегічну та інформаційну рефлексію. Інформаційна рефлексія – процес і результат роздумів агента у тому, які значення невизначених параметрів, що про ці значення знають і думають його опоненти (інші агенти). При цьому власне «ігрова» компонента відсутня, оскільки жодних рішень агент не ухвалює. Стратегічна рефлексія – процес і результат роздумів агента у тому, які принципи прийняття рішень використовують його опоненти (інші агенти) у межах тієї поінформованості, що він їм приписує внаслідок інформаційної рефлексії. Таким чином, інформаційна рефлексія зазвичай пов'язана з недостатньою взаємною інформованістю, і її результат використовується для прийняття рішень (у тому числі – при стратегічній рефлексії). Стратегічна рефлексія має місце навіть у разі повної поінформованості, випереджаючи прийняття агентом рішення про обрану дію. Іншими словами, інформаційна та стратегічна рефлексії можуть вивчатися незалежно, проте в умовах неповної та недостатньої поінформованості обидві вони мають місце. 3 Якщо в моделі, що розглядається, поінформованість є загальним знанням, то всі результати дослідження рефлексивних ігор переходять у відповідні класичні результати теорії ігор – див. нижче. 13 Стратегічна рефлексія розглядається у другому розділі цієї роботи. Виявляється, якщо припустити, що агент, моделюючи поведінку опонентів, приписує їм і собі певні ранги рефлексії, то вихідна гра перетворюється на нову гру, в якій стратегією агента є вибір рангу рефлексії. Якщо розглянути процес рефлексії у новій грі, то отримаємо нову гру тощо. При цьому, навіть якщо в вихідної гри безліч можливих дій було звичайно, то в новій грі безліч можливих дій – кількість різних рангів рефлексії – нескінченно. Отже, основним завданням, вирішуваної щодо стратегічної рефлексії, є визначення максимального доцільного рангу рефлексії. Відповідь це питання отримано у другому розділі для біматричних ігор (розділ 2.2) і моделей, враховують обмеженість можливостей людини з переробки інформації (розділ 2.3). Наведемо приклад стратегічної рефлексії – «Пенальті» (див. також приклади «Гра у хованки» та «Знесення на мізері» у розділі 2.2). Агентами є гравець, що б'є по воротах, та воротар. Припустимо для простоти, що гравець має дві дії – «бити в лівий кут воріт» і «бити в правий кут воріт». У воротаря також є дві дії – «ловити м'яч у лівому кутку» та «ловити м'яч у правому кутку». Якщо воротар вгадує, у який кут б'є гравець, він ловить м'яч. Промоделюємо міркування агентів. Нехай воротареві відомо, що цей гравець зазвичай б'є у правий кут. Отже, йому потрібно ловити м'яч у правому кутку. Але, якщо воротар знає, що гравцеві відомо, що воротар знає, як зазвичай робить гравець, то воротареві слід моделювати міркування гравця. Він може так думати: «Гравцю відомо, що я знаю його звичайну тактику. Тому він очікує, що я ловитиму м'яч у правому кутку і може вдарити в лівий кут. В цьому випадку мені треба ловити м'яч у лівому кутку». Якщо гравець має достатню глибину рефлексії, то він може здогадатися про міркування воротаря і спробувати його перехитрити, вдаривши у правий кут. Цей же ланцюжок міркувань може провести і воротар і на цій підставі ловити м'яч у правому кутку. І гравець, і воротар можуть збільшувати глибину рефлексії до нескінченності, проводячи міркування один за одного, і жоден з них не має раціональних підстав зупинитися на деякому кінцевому кроці. Отже, в рамках моделювання взаємних 14 міркувань не можна апріорі визначити результат цієї гри. Сама гра, в якій у кожного з агентів є дві можливі дії, може бути замінена на іншу гру, в якій агенти вибирають ранги рефлексії, що приписуються опоненту. Але й у цій грі немає розумного рішення, оскільки кожен агент може моделювати поведінку опонента, розглядаючи «двічі рефлексивну» гру, тощо. до нескінченності. Єдине, чим можна допомогти в ситуації агентам, так це обмежити глибину їх рефлексії, зауваживши, що починаючи з другого рангу рефлексії (в силу кінцівки вихідної безлічі можливих дій) ситуація починає повторюватися - перебуваючи як на нульовому, так і на другому (і, взагалі, на будь-якому парному рівні рефлексії, гравець битиме у правий кут. Отже, воротареві залишається вгадати парність рівня рефлексії гравця. Максимальний ранг рефлексії, який слід мати агенту для того, щоб охопити все різноманіття результатів гри (зважаючи на деякі стратегії опонента, агент ризикує зменшити свій виграш), назвемо максимальним доцільним рангом рефлексії. Виявляється, що у багатьох випадках цей ранг є кінцевим – відповідні формальні результати наводяться у розділах 2.2 і 3.6). У прикладі «Пенальті» максимальний доцільний ранг рефлексії агентів дорівнює двом. У разі відсутності у воротаря інформації про те, куди зазвичай б'є нападник, дії останнього симетричні (лівий та правий кути «рівноцінні»). Однак залишаються можливості штучно внести асиметрію, щоб спробувати нею скористатися з метою. Наприклад, воротар може зрушити у бік одного з кутів, ніби запрошуючи нападника вдарити в інший (і кидається саме в той, «далекий» кут). Більш складна стратегія ось у чому. Гравець команди воротаря підходить до нього і показує, куди збирається бити нападник, причому робить це так, що нападник це бачить (після чого в момент удару воротар ловить м'яч не в тому кутку, на який демонстративно показав йому товариш по команді, а в протилежному) . Зауважимо, що обидва описані прийоми взяті «з життя» і виявилися успішними. Перший мав місце у міжнародному матчі збірної СРСР, другий – у фіналі Кубка СРСР з футболу у серії післяматчевих пенальті. 15 Третій розділ присвячено дослідженню формальних моделей інформаційної рефлексії. Так як ключовим фактором в рефлексивних іграх є інформованість агентів - ієрархія уявлень, то для її формального опису вводиться поняття інформаційної структури - дерева (в загальному випадку - нескінченного), вершинам якого відповідає інформація (уявлення) агентів про суттєві параметри, уявлення інших агентів і т.д. .д. (Див. Приклад ієрархії уявлень вище). Поняття структури поінформованості (інформаційної структури) дозволяє дати формальне визначення деяких інтуїтивно ясних понять, таких як: адекватна поінформованість одного агента про іншого, взаємна поінформованість, однакова поінформованість та ін. ключових понять , що застосовуються в цій роботі для аналізу рефлексивних ігор, є поняття фантомного агента Обговоримо його на якісному рівні (відклавши суворе математичне визначення до розділу 3.2). Нехай у певній ситуації взаємодіють два агента – А і Б. Цілком природно, що у свідомості кожного їх є якийсь образ іншого: у А є образ Б (назвемо його АБ), а Б – образ А (назвемо його БА). Ці образи можуть збігатися з реальністю, а можуть відрізнятися від неї. Іншими словами, агент, наприклад, може мати адекватне уявлення про Б (цей факт можна записати у вигляді тотожності АБ = Б), а може і не мати. Тут відразу постає питання – а чи може в принципі виконуватися тотожність АБ = Б, адже Б – це справжній агент, а АБ – лише його образ? Не вдаючись в обговорення цього філософського, по суті питання, відзначимо наступні дві обставини. По-перше, йдеться не про цілковите розуміння особистості у всій її повноті, а про її моделювання в даній конкретній ситуації. На повсякденному, життєвому рівні людського спілкування ми постійно стикаємося з ситуаціями як адекватного, і неадекватного сприйняття однією людиною іншого. По-друге, у межах формального (теоретико-игрового) моделювання людської поведінки агент – учасник ситуації – описується щодо невеликим набором показників. І ці характеристики можуть бути повністю відомі іншому агенту тією ж мірою, як вони відомі досліднику. 16 Розглянемо докладніше випадок, коли між Б і АБ є відмінність (ця різниця може виникати, говорячи формально, з неповноти інформації А про Б, або з довіри до хибної інформації). Тоді А, приймаючи рішення про які-небудь свої дії, має на увазі не Б, а той образ, який у нього є, тобто АБ. Можна сміливо сказати, що суб'єктивно А взаємодіє з АБ. Тому АБ можна назвати фантомним агентом. Його немає в реальності, але він присутній у свідомості реального агента А і відповідно впливає на його дії, тобто на реальність. Наведемо найпростіший приклад. Нехай А вважає, що вони з Б друзі, а Б, знаючи це, є ворогом А (цю ситуацію можна описати словом «зрада»). Тоді, очевидно, у ситуації є фантомний агент АБ, якого можна описати так: «Б є другом А»; насправді такий суб'єкт відсутній. Зазначимо, що при цьому Б адекватно поінформовано про А, тобто БА = А. Таким чином, крім реальних агентів, які фактично беруть участь у грі, пропонується розглядати фантомних агентів, тобто агентів, які існують у свідомості реальних та інших фантомних агентів. Реальні та фантомні агенти в рамках своєї рефлексії наділяють фантомних агентів певною поінформованістю, яка відображається в інформаційній структурі. Реальних і фантомних агентів, що беруть участь у грі, може бути нескінченно багато, що означає потенційну нескінченність здійснення актів рефлексивного відображення (нескінченну глибину дерева структури поінформованості). Дійсно, навіть у найпростішій ситуації можливе нескінченне розгортання міркувань виду «я знаю…», «я знаю, що ти знаєш…», «я знаю, що ти знаєш, що я знаю…», «я знаю, що ти знаєш, що я знаю, що ти знаєш…» і т. д. Однак на практиці така «погана нескінченність» не має місця, оскільки з певного моменту уявлення «стабілізуються», і збільшення рангу рефлексії не дає нічого нового. Таким чином, у реальних ситуаціях структура поінформованості має кінцеву складність: у відповідного дерева є кінцева кількість попарно різних поддерев-17 єв. Іншими словами, у грі бере участь кінцева кількість реальних та фантомних агентів4. Введення поняття фантомних агентів дозволяє визначити рефлексивну гру як гру реальних і фантомних агентів, а також визначити інформаційну рівновагу як узагальнення рівноваги Неша на випадок рефлексивної гри, в рамках якого передбачається, що кожен агент (реальний та фантомний) при обчисленні своєї суб'єктивної рівноваги (рівноваги в тій грі, в яку він зі свого погляду грає) використовує наявну в нього ієрархію уявлень про об'єктивну та рефлексивну реальність. Зручним інструментом дослідження інформаційної рівноваги є граф рефлексивної гри, в якому вершини відповідають реальним і фантомним агентам, і до кожної вершини агента входять дуги (їх число на одиницю менше числа реальних агентів), що йдуть з вершин-агентів, від дій яких у суб'єктивній рівновазі залежить виграш даного агента. Граф рефлексивної гри може бути побудований без конкретизації цільових функцій агентів. При цьому він відображає якщо не кількісне співвідношення інтересів, то якісне співвідношення інформованості агентів, що рефлексують, і є зручним і виразним засобом опису ефектів рефлексії (див. розділ 3.4). Для описаного вище прикладу двох агентів граф рефлексивної гри має вигляд: Б ¬ А « АБ – реальний агент Б (зрадник) адекватно поінформований про агента А, який взаємодіє з фантомним агентом АБ (Б, що є другом А). Наведемо ще один приклад графа, який відбиває рефлексивне взаємодія (хоч і є формально графом рефлексивної гри у сенсі введеного вище визначення). На обкладинку цієї книги винесено картину Еге. Берн-Джонса «Смертоносна голова», написана 1886-1887 гг. за мотивами міфу про Персея та Андромеда. У ситуації беруть участь три реальні агенти: Персей (позначимо його літерою П), Андромеда (А) та горгону Медуза (М). Крім того, 4 У граничному випадку - коли є загальне знання - фантомний агент першого рівня збігається зі своїм реальним прообразом і дерево має одиничну глибину (точніше, всі інші піддерева повторюють дерева вищого рівня). 18 є такі «фантомні» агенти: відображення Персея (ОП), відображення Андромеди (ОА) та відображення Медузи (ОМ). Граф наведено малюнку 1. М П А ОП ОА ОМ Рис. 1. Граф картини Е. Берн-Джонса «Смертоносна голова» (див. обкладинку) 19 Інформованість реальних агентів у цьому прикладі така: Персей бачить Андромеду; Андромеда не бачить Персея, але бачить його відображення, своє відображення та відображення горгони Медузи; відображення Персея бачить відображення Андромеди; Відображення Андромеди бачить всіх реальних агентів. На щастя, саму горгону Медузу ніхто із реальних агентів не бачить. Введення інформаційної структури, інформаційної рівноваги і графа рефлексивної гри, по-перше, дозволяє з єдиних методологічних позицій і за допомогою єдиного математичного апарату описувати та аналізувати різноманітні ситуації колективного прийняття рішень агентами, що володіють різною поінформованістю, досліджувати вплив рангів рефлексії на виграші агентів. існування та реалізованості інформаційних рівноваг тощо. Численні приклади прикладних моделей наведено нижче. По-друге, запропонована модель рефлексивної гри дозволяє вивчати вплив рангів рефлексії (глибини інформаційної структури) на виграші агентів. Отримані у розділах 2.2, 3.5 та 3.6 цієї роботи результати свідчать, що за мінімальних припущень можна показати обмеженість максимального доцільного рангу рефлексії. Інакше кажучи, у часто необмежене збільшення рангу рефлексії недоцільно з погляду виграшів агентів. По-третє, наявність моделі рефлексивної гри дозволяє визначити умови існування та властивості інформаційної рівноваги, а також конструктивно і коректно сформулювати завдання рефлексивного управління, що полягає в пошуку керуючим органом такої інформаційної структури, що інформаційна рівновага, що реалізується в ній, найбільш вигідна з його точки зору. Завдання рефлексивного управління ставиться і вирішується низки випадків розділ 3. 7. Теоретичні результати її рішення використовуються в ряді прикладних моделей, що наводяться в четвертому розділі – приховане управління, інформаційне управління через ЗМІ та ін. І, нарешті, по-четверте, мова рефлексивних ігор (інформаційні структури, графи рефлексивної гри та ін.) є зручною для опису ефектів рефлексії як у психології (що ілюструється з прикладу шахова гра , трансакційного аналізу, 20 моделей етичного вибору та інших.), і у художніх творах – див. четвертий розділ справжньої работы. Завершивши якісний огляд змісту роботи, зазначимо, що можна запропонувати кілька підходів до ознайомлення з матеріалом цієї книги. Перший – лінійний, що полягає у послідовному прочитанні всіх чотирьох розділів. Другий розрахований на читача, який цікавиться переважно формальними моделями, і полягає в прочитанні другого і третього розділів і побіжному ознайомленні з прикладами в четвертому розділі. Третій орієнтований на читача, який не бажає вникати в математичні тонкощі, і полягає в прочитанні вступу, четвертого розділу та висновків. РОЗДІЛ 1. ІНФОРМАЦІЯ У ПРИЙНЯТТІ РІШЕНЬ У першому розділі цієї роботи наводиться модель індивідуального прийняття рішень (розділ 1.1), проводиться огляд основних концепцій вирішення некооперативних ігор, обговорюються припущення, що використовуються в цих концепціях, про інформованість та взаємну інформованість агентів (розділ 1). поінформованості та загального знання (розділ 1.3). 1.1. ІНДИВІДУАЛЬНЕ ПРИЙНЯТТЯ РІШЕНЬ: МОДЕЛЬ РАЦІОНАЛЬНОГО ПОВЕДІНКИ Опишемо, слідуючи, модель прийняття рішень єдиним агентом. Нехай агент здатний вибирати деяку дію x з множини X допустимих дій. В результаті вибору дії x Î X агент отримує виграш f(x), де f: X ® Â1 – справді значна цільова функція, що відображає переваги агента. Приймемо гіпотезу раціональної поведінки, що полягає в тому, що агент з урахуванням всієї наявної у нього інформації вибирає дії, які найбільш переважні з точки зору значень своєї цільової функції (дана гіпотеза не є єдино можливою – див., наприклад, концепцію обмеженої раціональності). Відповідно до гіпотези раціональної поведінки агент вибирає альтернативу з безлічі «найкращих» альтернатив. У даному випадку це безліч є безліччю альтернатив, на яких досягається максимум цільової функції. Отже, вибір дії агентом визначається правилом індивідуального раціонального вибору P(f, X) і X, яке виділяє безліч найбільш кращих з точки зору агента действий5: P(f, X) = Arg max f(x). xÎ X Ускладнимо модель, а саме припустимо, що виграш агента визначається не лише його власними діями, а й значенням невизначеного параметра qÎ W – стану природи. Тобто в результаті вибору дії x X X і реалізації стану природи Q W агент отримує виграш f (q, x), де f: W ´ X ® Â1. Якщо виграш агента залежить, крім його дій, від невизначеного параметра - стану природи, то в загальному випадку не існує однозначно "кращої" дії - приймаючи рішення про дії, що вибирається, агент повинен "передбачати" стан природи. Тому введемо гіпотезу детермінізму, що полягає в тому, що агент прагне усунути з урахуванням всієї наявної в нього інформації існуючу невизначеність і приймати рішення в умовах повної поінформованості (іншими словами, остаточний критерій, яким керується агент, який приймає рішення, не повинен містити невизначених параметрів). Тобто агент повинен відповідно до гіпотези детермінізму усунути невизначеність щодо незалежних від нього параметрів (можливо, шляхом введення певних припущень про їх значення). Залежно від інформації I, якою володіє агент про невизначені параметри, розрізняють : - інтервальну невизначеність (коли відомо лише безліч W можливих значень невизначених параметрів); 5 При використанні максимумів і мінімумів мається на увазі, що вони досягаються. 22 - ймовірнісну невизначеність (коли, крім безлічі W можливих значень невизначених параметрів, відомий їх ймовірнісний розподіл p(q)); - нечітку невизначеність (коли, окрім безлічі W можливих значень невизначених параметрів, відома функція належності їх значень). У роботі розглядається найпростіший – «точковий» – випадок, коли агенти мають ставлення до конкретному значенні стані природи. Можливість узагальнення отриманих результатів на випадок інтервальної чи ймовірнісної невизначеності обговорюється у висновку. Введемо таке припущення щодо процедур усунення невизначеності, що використовуються агентом: інтервальна невизначеність усувається обчисленням максимального гарантованого результату (МГР), ймовірнісна – очікуваного значення цільової функції, нечітка – безлічі максимально недомінованих альтернатив6.) Позначимо f Þ f – процедуру усунення не визначено від цільової функції f(q, x) до цільової функції f (x), яка не залежить від невизначених параметрів. Відповідно до введеного припущення у разі інтервальної) невизначеності f(x) = min f(q, x), у випадку імовірнісної невизначеності f(x) = q ÎW ò f(x,q) p(q)dq і і т.д. . W Усунувши невизначеність, отримуємо детерміновану модель, тобто правило індивідуального раціонального вибору має вигляд:) P(f, X, I) = Arg max f (x), x X 6 Введені припущення не є єдино можливими. Використання інших припущень (наприклад, гіпотезу про використання МГР можна замінити гіпотезою оптимізму, або гіпотезою «зваженого оптимізму-песимізму» і т.д.) призведе до інших концепцій рішення, проте процес їх отримання буде реалізовуватися нижче загальної схеми. 23 де I – інформація, що використовується агентом при усуненні невизначеності) f Þ f . I Досі ми розглядали індивідуальне ухвалення рішень. Розглянемо тепер ігрову невизначеність, у межах якої суттєвими є припущення агента про безліч можливих значень обстановки гри (дій інших агентів, вибраних ними у тих чи інших неточно відомих аналізованому агенту принципів поведінки). 1.2. ІНТЕРАКТИВНЕ ПРИЙНЯТТЯ РІШЕНЬ: ІГРИ ТА РІВНОВАГИ Модель гри. Для опису колективної поведінки агентів недостатньо визначити їх переваги та правила індивідуального раціонального вибору окремо. Як зазначалося вище, у разі, коли в системі є єдиний агент, гіпотеза його раціональної (індивідуальної) поведінки передбачає, що агент поводиться таким чином, щоб вибором дії максимізувати значення своєї цільової функції. У випадку, коли агентів кілька, необхідно враховувати їхній взаємний вплив: у цьому випадку виникає гра – взаємодія, в якій виграш кожного агента залежить як від його власної дії, так і від дій інших агентів. Якщо з гіпотези раціонального поведінки кожен із агентів прагне вибором дії максимізувати свою цільову функцію, зрозуміло, що у разі кількох агентів індивідуально раціональне дію кожного їх залежить від дій інших агентов7. Розглянемо теоретико-ігрову модель взаємодії між агентами n. Кожен агент здійснює вибір дії xi, що належить допустимій множині Xi, i Î N = (1, 2, …, n) – множині агентів. Вибір дій агентами здійснюється одноразово, одночасно незалежно. 7 У теоретико-ігрових моделях передбачається, що раціональність гравців, тобто дотримання їхньої гіпотези раціональної поведінки, є загальним знанням. У цій роботі це припущення також приймається. 24 Виграш i-го агента залежить від його власної дії xi Î Xi, від вектора дій x-i= (x1, x2, …, xi-1, xi+1, …, xn) Î Xi = Õ X j опонентів N\(i) і від стану природи8 q Î W, і jÎN \ (i ) описується дійсно значною функцією виграшу fi = fi(q, x), де x = (xi, x-i) = (x1, x2, …, xn) Î X" = Õ X j – вектор дій усіх агентів jÎN. При фіксованому значенні стану природи сукупність Г = ( N, (Xi)i Î N, (fi(×))i Î N) безлічі агентів, множин їх допустимих дій і цільових функцій називається грою в нормальній формі. агентів У силу гіпотези раціональної поведінки кожен агент буде прагнути вибрати найкращі для нього (з точки зору значення його цільової функції) дії при заданій обстановці.Обстановкою для нього буде сукупність обстановки ігри x-i Î X-i та стану природи q Î W. Отже, принцип прийняття ним рішення про обрану дію можна записати наступним чином (BR позначає найкращу відповідь – best response): (1) BRi(q, x-i) = Arg max fi(q, xi, x-i), i Î N. xi Î X i Розглянемо можливі принципи прийняття рішень агентами, кожен із яких породжує відповідну концепцію рівноваги, тобто визначає, у якому сенсі стійким має бути прогнозований результат гри. Паралельно обговорюватимемо ту поінформованість, яка необхідна для реалізації рівноваги. Рівновага у домінантних стратегіях. Якщо деякого агента безліч (1) залежить від обстановки, воно становить безліч його домінантних стратегій (сукупність домінантних стратегій агентів називається рівновагою в домінантних стратегіях – РДС) . Якщо у кожного з агентів існує домінантна стратегія, то вони можуть приймати рішення незалежно, тобто вибирати дії, не маючи жодної інформації і не роблячи ніяких 8 Стан природи може бути, в тому числі вектором, компоненти якого відображають індивідуальні характеристики агентів. 25 припущень про обстановку. На жаль, РДС існує далеко не у всіх іграх. Для реалізації агентами рівноваги в домінантних стратегіях, якщо останнє існує, достатньо знання кожним з них тільки своєї цільової функції і допустимих множин X" і W. всіх іграх: (2) xiг Î Arg max min min fi(q, xi, x-i), i Î N. (тобто не існує РДС), то справа складніше. Досліджуємо відповідні випадки. Рівновага Неша. Визначимо багатозначне відображення (3) BR(q, x) = (BR1(q, x-1); -2), …, BRn(q, x-n)).Рівновагою Неша при стані природи q (точніше – параметричною рівновагою Неша) називається точка x*(q) Î X", яка задовольняє наступній умові: (4) x*(q) Î BR(q, x*(q)). Вкладення (4) можна також записати у вигляді: i Î N, yi Î Xi fi(q, x*(q)) ³ fi(q, yi, x-* i (q)). Безліч EN(q) всіх точок виду (4) можна описати так: (5) EN(q) = (x Î X' | xi Î BRi(q, x-i), i Î N). Для випадку двох агентів альтернативним еквівалентним способом визначення множини EN(q) є його завдання у вигляді множини пар точок (x1* (q), x2* (q)), що одночасно задовольняють наступним умовним співвідношенням : (6) x1* (q) Î BR1(q, BR2(q, BR1(q, ). ..BR2(q, x2* (q))...))), (7) x2* (q) Î BR2(q, BR1(q, BR2(q, ...BR1(q, x1*) q))...))). Розглянемо, якою інформованістю мають володіти агенти, щоб реалізувати рівновагу Неша шляхом одночасного та незалежного вибору своїх дій. За визначенням рівновага Неша є тією точкою, одностороннє відхилення від якої невигідно для жодного з агентів (за умови, що інші агенти вибирають відповідні 26 компоненти рівноважного по Нешу вектора дій). Якщо агенти багаторазово здійснюють вибір дій, то точка Неша є в певному сенсі (див. подробиці в) стійкою і може вважатися реалізованою в рамках знання, як і у випадку з РДС, кожним агентом тільки своєї цільової функції та допустимих множин X" і W ( при цьому, щоправда, необхідне запровадження додаткових припущень про принципи прийняття агентами рішень про вибір дій залежно від історії гри).У цій роботі розгляд обмежується однокроковими іграми, тому у разі одноразового вибору агентами своїх дій знання ними лише своїх цільових функцій та множин X" і W для реалізації рівноваги Неша вже недостатньо. Тому введемо таке припущення, яке вважатимемо виконаним у ході всього наступного викладу: інформація про гру Г, безліч W і раціональності агентів є загальним знанням. Змістовно введене припущення означає, що кожен із агентів раціональний, знає безліч учасників гри, цільові функції та допустимі множини всіх агентів, а також знає безліч можливих значень станів природи. Крім того, він знає, що інші агенти знають це, а також те, що вони знають, що він це знає і т.д. до нескінченності (див. вище). Така поінформованість може, зокрема, досягатися публічним (тобто одночасно всім агентам, зібраним разом) повідомленням відповідної інформації, що забезпечує можливе досягнення всіма агентами нескінченного рангу інформаційної рефлексії. Зазначимо, що введене припущення нічого не говорить про поінформованість агентів щодо конкретного значення стану природи. Якщо значення стану природи є загальним знанням, цього виявляється достатньо реалізації рівноваги Неша. В якості обґрунтування цього твердження промоделюємо на прикладі гри двох осіб перебіг міркувань першого агента (другий агент міркує повністю аналогічно, і його міркування будуть розглядатися окремо тільки в тому випадку, якщо вони відрізняються від міркувань першого агента). Він міркує наступним чином (див. вираз (6)): "Моя дія, в силу (1), повинна бути найкращою відповіддю на дію другого агента при заданому стані природи. Отже, мені треба промоделювати його поведінку. Про 27 нього (в силу припущення про те, що цільові функції та допустимі множини є загальним знанням) мені відомо, що він діятиме в рамках (1), тобто шукатиме найкращу відповідь на мої дії при заданому стані природи (див. (7)). йому необхідно промоделювати мої дії, при цьому він (знову ж таки, через введені припущення про те, що цільові функції та допустимі множини є загальним знанням) міркувати так само, як і я, і так до нескінченності (див. ( 6))." Теоретично ігор для подібних міркувань використовується вдала фізична аналогія відбиття у дзеркалах – див., наприклад, . Таким чином, для реалізації рівноваги Неша достатньо, щоб усі параметри гри, а також значення стану природи були загальним знанням (послаблення цього припущення розглянуто у ). Рефлексивні ігри, що розглядаються в цій роботі, характеризуються тим, що значення стану природи не є загальним знанням, і кожен агент у загальному випадку має власні уявлення про це значення, уявлення інших агентів і т.д. Суб'єктивна рівновага. Розглянуті види рівноваги є окремими випадками суб'єктивної рівноваги, що визначається як вектор дій агентів, кожна компонента якого є найкращою відповіддю відповідного агента на ту обстановку гри, яка може реалізуватися з його суб'єктивної точки зору. Розглянемо можливі випадки. Припустимо, що i-ий агент розраховує на реалізацію про) становлення гри x-Bi ("B" позначає beliefs; іноді використовуються терміни "припущення", "здогад" - conjecture) і стану) природи q i, тоді він вибере)) (8 ) xiB Î BRi(q i , x-Bi), i Î N. Вектор xB є точковою суб'єктивною рівновагою. Зазначимо, що при такому визначенні «рівноваги» не потрібно обґрунтованості припущень агентів про дії опонентів, тобто може виявитися, що $ i N: x-Bi x-Bi. Обґрунтована суб'єктивна) рівновага, тобто така, що x-Bi = x-Bi , i Î N, є рівновагою Неша (для цього, зокрема, достатньо, щоб всі параметри гри були загальним знанням, і щоб кожен агент при 28 ) побудові x-Bi моделював раціональну поведінку опонентів). В окремому випадку, якщо найкраща відповідь кожного агента не залежить від припущень про обстановку, суб'єктивна рівновага є рівновагою в домінантних стратегіях. У більш загальному випадку i-ий агент може розраховувати на вибір опонентами дій з множини X-Bi Í X-i і реалізацію стану природи з множини Wi Í W i Î N. Тоді найкращою відповіддю буде гарантуюча суб'єктивна рівновага:) (9) xi (X-Bi , Wi) Î Arg max minB min) fi(q, xi, x-i), i Î N. xi Î X i B -i x ÎX q ÎW i -i -i) = X-i, Wi = W, i Î N, то xi(X -Bi) = xiг, i Î N, тобто га- Якщо X суб'єктивна рівновага, що рантує, є «класичною» гарантуючою рівновагою. Різновидом суб'єктивної рівноваги, що гарантує, є П-рівновагу, докладно описану в . У ще більш загальному випадку як найкраща відповідь i-го агента можна розглядати розподіл ймовірностей pi(xi), де pi(×) Î D(Xi) – безлічі різноманітних розподілів на Xi, що максимізує очікуваний виграш агента з урахуванням його уявлень про розподіл ймовірностей mi(x-i) Î D(X-i) дій, що вибираються іншими агентами, та розподілі ймовірностей qi(q) Î D(W) стану природи (отримаємо Байєсов принцип прийняття рішень): (10) pi(mi(×), qi( x), x) = = arg max ò fi (q , xi , x-i) pi (xi) qi (q) mi (x-i) dq dx , i N. p i ÎD (X i) X ", W для реалізації суб'єктивної рівноваги потрібна мінімальна поінформованість агентів – кожен з них повинен знати свою цільову функцію fi(×) і допустимі множини W і X. Однак за такої поінформованості сукупність припущень агентів про стан природи та про поведінку опонентів можуть бути неузгодженими. тобто для того, щоб припущення виправдовувалися, необхідні додаткові припущення про взаємну поінформованість агентів. Найбільш сильним є припущення про загальне знання, яке перетворює суб'єктивну точкову рівновагу на 29 рівновагу Неша, а сукупність принципів Баейсових прийняття рішень – на рівновагу Байєса-Неша. Рівновага Байєса-Неша. Якщо грі є неповна інформація (див. ), то Байесова гра описується наступним набором: - безліччю N агентів; - множиною K можливих типів агентів, де тип i-го агента ki Ki, i N, вектор типів k = (k1, k2, …, kn) K K = = K i ; - множиною X' = X Xi iÎN допустимих векторів дій аген- iÎN тов; - набором функцій корисності ui: K 'X'® Â1; - уявленнями mi(×|ki) Î D(K-i), i Î N, агентів. Рівновага Байєса-Неша у грі з неповною інформацією визначається як набір стратегій агентів виду si: Ki ® Xi, i Î N, які максимізують відповідні очікувані корисності (11) Ui(ki, si(×), s-i(×)) = ò ui (k, si(ki), s-i(k-i)) mi(k-i|ki) dk-i, i N. k -i ÎÕ K j j ¹i У Байєсових іграх, як правило, передбачається, що уявлення (mi(×|×))i Î N є загальним знанням. Для цього, зокрема, достатньо, щоб вони були узгоджені, тобто виводилися кожним агентом за формулою Байєса з розподілу m(k) Î D(K'), який є загальним знанням. Для Баейсових ігор, у яких (mi(×|×))iÎ N є загальним знанням, введено поняття раціоналізованих стратегій (rationalizable strategies) Di Í D(Xi), i Î N, таких що Di Í BRi(D-i), i Î N. В іграх двох осіб безліч стратегій, що раціоналізуються, збігається з безліччю стратегій, отриманими в результаті ітеративного виключення строго домінованих стратегій9. 9 Нагадаємо, що строго домінованою (strongly dominated) називається така стратегія агента, що знайдеться інша його стратегія, яка за будь-якої обстановки забезпечує цьому агенту суворо більший виграш . Ітеративний виняток (iterative elimination) строго домінованих стратегій полягає в послідовному (загалом нескінченному) їх виключенні з безлічі стратегій агентів, що розглядаються, що призводить до знаходження «найслабшого» рішення гри – безлічі недомінованих стратегій. 30 (гарантуючого) рівноваги здійснено . Можливе ускладнення конструкцій суб'єктивної рівноваги за рахунок запровадження заборон на певні комбінації дій агентів і т.д. Таким чином, реалізація РДС, що гарантує і суб'єктивної рівноваги (якщо вони існують) вимагає, щоб кожен агент володів, як мінімум, інформацією про свою цільову функцію і всі допустимі множини, а реалізація рівноваги Неша, якщо вона існує, додатково вимагає, щоб значення всіх суттєвих параметрів були загальним знанням. Ще раз відзначимо, що реалізованість рівноваги Неша має на увазі можливість агентів (і керуючого органу - центру, або дослідника операцій, якщо вони мають відповідну інформацію) апріорі і незалежно розрахувати рівновагу Неша і в однокроковій грі відразу вибрати рівноважні по Нешу дії (при цьому окреме питання полягає у тому, яку з рівноваг виберуть агенти та центр, якщо рівноваг Неша кілька ). Якісно, ​​загальне знання необхідне для того, щоб кожен з агентів (і центр) міг промоделювати принципи прийняття рішень іншими агентами, у тому числі такими, що враховують його власні принципи прийняття рішень і т.д. Отже, можна дійти невтішного висновку у тому, що концепція рішення гри тісно пов'язані з інформованістю агентів. Такі концепції рішення, як РДС і рівновага Неша, є певною мірою граничними випадками – перша вимагає мінімальної поінформованості, друга – нескінченності рангу інформаційної рефлексії всіх агентів. Тому нижче ми опишемо інші (проміжні) випадки поінформованості агентів – ієрархії уявлень – і побудуємо відповідні їм рішення гри. Перш ніж реалізовувати цю програму, проведемо огляд відомих моделей загального знання та ієрархії уявлень. 1.3. ЗАГАЛЬНІ ПІДХОДИ ДО ОПИСУ ІНФОРМОВАНОСТІ У розглянутих у попередньому розділі концепціях рівноваги (за винятком, напевно, рівноваг Неша і Байєса-Неша, в яких передбачається наявність загального знання) рефлексія відсутній, оскільки кожен агент не намагається. Рефлексія має місце у разі, коли агент має і використовує при прийнятті рішень ієрархію уявлень – свої уявлення про уявлення інших агентів, їх уявлення про його уявлення та уявлення один одного тощо. Аналіз уявлень про невизначені чинники відповідає інформаційної рефлексії, а поглядів на принципи прийняття рішень – стратегічної рефлексії. У термінах суб'єктивної рівноваги стратегічної рефлексії відповідають припущення агента про те, що опонент обчислюватиме ту чи іншу конкретну, наприклад суб'єктивну гарантуючу рівновагу, а інформаційної рефлексії – які конкретні припущення про обстановку використовуватиме опонент. Розглянемо відомі на сьогоднішній день10 підходи до опису ієрархії уявлень та загального знання. Як зазначається в , розрізняють два підходи до опису поінформованості – синтаксичний та семантичний (нагадаємо, що «синтактика – синтаксис знакових систем, тобто структура поєднання знаків та правил їх утворення та перетворення безвідносно до їх значень та функцій знакових систем», «семантика – вивчає знакові систем як засобу вираження сенсу, основний її предмет становлять інтерпретації знаків та знакосполучення». Основи цих підходів були закладені в математичній логіці. При синтаксичному підході ієрархія уявлень описується явно. Якщо уявлення задаються розподілом ймовірностей, то ієрархії уявлень на певному рівні ієрархії відповідають розподілу на творі безлічі станів природи та розподілів, що відображають уявлення попередніх рівнів. Альтернативою є використання «формул» (у логічному сенсі), тобто правил перетворення елементів вихідної множини на основі застосування логічних 10. Слід зазначити, що ієрархії уявлень і загальне знання стали предметом досліджень у теорії ігор зовсім недавно – піонерськими є згадані вище книги D. Lewis (1969) та стаття R. Aumann (1976). Аналіз хронології публікацій (див. бібліографію) свідчить про зростаючий інтерес до цієї проблемної галузі. 32 операцій та операторів виду «гравець i вважає, що ймовірність події … не менше a». При цьому знання моделюється пропозиціями (формулами), що конструюються відповідно до певних синтаксичних правил. У рамках семантичного підходу уявлення агентів задаються розподілом ймовірностей на безлічі станів природи. Ієрархія уявлень у своїй породжується виходячи лише з цих розподілів. У найпростішому детермінованому випадку знання є безліччю W можливих значень невизначеного параметра та розбиттям (Ri)i Î N цієї множини. Елемент розбиття Ri, що включає q W, являє собою знання iго агента - безліч значень невизначеного параметра, невиразних з його точки зору при відомому факті q . Відповідність (умовно кажучи, «еквівалентність») між синтаксичним та семантичними підходами встановлено у . Особливо слід відзначити експериментальні дослідження ієрархій уявлень - див. Проведений короткий огляд свідчить, що є дві «крайності». Перша «крайність» – загальне знання (заслугою Дж. Харшаньї і те, що він звів всю інформацію про агента, що впливає його поведінка, до єдиної його характеристиці – типу – і побудував рівновагу (Байєса-Неша) у межах гіпотези у тому, що розподіл ймовірностей (типів є загальним знанням). Друга «крайність» – нескінченна ієрархія узгоджених чи неузгоджених уявлень. Прикладом останньої служить конструкція, наведена в , яка, з одного боку, описує всі можливі ігри і всі можливі ієрархії уявлень, а, з іншого боку, (в силу своєї спільності) настільки громіздка, що не дозволяє конструктивно ставити і вирішувати конкретні завдання. Більшість досліджень інформованості присвячено відповіді питання: у яких випадках ієрархія уявлень агентів описує загальне знання і/або адекватно відбиває інформованість агентів . Залежність рішення гри від кінцевої ієрархії узгоджених чи неузгоджених уявлень агентів (тобто весь діапазон між двома зазначеними вище «крайнощами») практично не досліджувалась. Винятки склад33 ляют, по-перше, робота , в якій рівноваги Байєса-Неша для трирівневих ієрархій неузгоджених ймовірнісних уявлень двох агентів будувалися в припущенні, що на нижньому рівні ієрархії уявлення збігаються з уявленнями попереднього рівня - див. . По-друге – третій розділ цієї роботи, в якій описуються довільні (кінцеві чи нескінченні, узгоджені чи неузгоджені) ієрархії «точкових» уявлень, для яких будується та досліджується інформаційна рівновага – рівновага рефлексивної гри (можливість і доцільність узагальнення отриманих результатів на випадок та імовірнісних уявлень агентів обговорюється у висновку). Таким чином, актуальним є як дослідження стратегічної рефлексії (глава 2 цієї роботи), і побудова рішення рефлексивної гри, і вивчення залежності цієї рівноваги від ієрархії уявлень агентів (глава 3 цієї роботи). РОЗДІЛ 2. СТРАТЕГІЧНА РЕФЛЕКСІЯ У цьому розділі досліджуються теоретико-ігрові моделі стратегічної рефлексії. У розділі 2.1 вивчається модель стратегічної рефлексії у грі двох осіб, що у розділі 2.2 дозволяє вирішити завдання про максимальний доцільний ранг стратегічної рефлексії у біматричних іграх. Розділ 2.3 присвячений обговоренню кінцівки рангу рефлексії, що породжується обмеженістю здібностей людини з переробки інформації. 2.1. СТРАТЕГІЧНА РЕФЛЕКСІЯ В ІГРАХ ДВОХ ОСІБ Розглянемо послідовно, в порядку зростання поінформованості, рефлексивні моделі прийняття рішень в іграх двох осіб. Нульовий ранг рефлексії. Розглянемо проблему прийняття агентом рішення у разі повної відсутності інформації про стан природи (нагадаємо, що припущення про те, що цільові функції та допустимі множини є загальним знанням, вважається виконаним). Видається розумним, з одного боку, принцип прийняття рішень на основі максимального гарантованого результату, відповідно до якого i-ий агент вибере стратегію (за станом природи та дії опонента) стратегію (12) 1 xiг = arg max min min fi(q, xi , X-i). xi Î X i q ÎW x -i Î X -i З іншого боку, гіпотетично принцип (12) прийняття рішень не є єдиним можливим – агент може розраховувати, що його опонент вибере не найгіршу дію, а власну стратегію, що гарантує (зазначимо, що кожен агент може обчислити стратегію опонента, що гарантує). Тоді найкращою відповіддю буде (13) 2 xiг = arg max min fi(q, xi, 1 x-г i). xi X X q W Але аналогічним чином може міркувати опонент аналізованого агента. Якщо аналізований агент допускає таку можливість, тоді його гарантує стратегією буде (14) 3 xiг = arg max min fi(q, xi, 2 x-г i), xi X i q ÎW г -i де 2 x обчислюється відповідно до ( 13) заміною індексу "i" на "i" і навпаки. Ланцюжок нарощування «рангу рефлексії» (припущень агента про ранг рефлексії опонента) можна продовжувати і далі (див. аналогії в динамічних моделях, що розглядаються в ), визначивши рекурентно (15) k xiг x-г i), k = 2, 3, ..., xi X i q W w 1 i де x , i = 1, 2, визначаються (12). Набір дій типу (15) називатимемо безліччю рефлексивних стратегій, що гарантують. Розглянемо ілюстративний приклад. Приклад 1. Нехай цільові функції агентів мають вигляд: f1(x1, x2) = x1 – x12 /2x2, f2(x1, x2) = x2 – x22 /2(x1 + d), де d > 0. Щодо допустимих множин припустимо , що X1 = X2 = , 0< e < 1. Будем считать, что каждая из констант e и 35 d много меньше единицы. Гарантирующие стратегии агентов приведены в таблице 1. Табл. 1. Гарантирующие стратегии агентов в примере 1 k г k x1 1 e 2 e+d 3 e+d 4 e + 2d 5 e + 2d 6 e + 3d 7 e + 3d ... ... x2г e+d e+d e + 2d e + 2d e + 3d e + 3d e + 4d ... k Видно, что, во-первых, значения гарантирующих действий увеличиваются с ростом «ранга рефлексии». Во-вторых, различным «рангам рефлексии» агентов соответствуют в общем случае различные гарантирующие действия (отметим, что равновесием11 Нэша в данном примере является вектор (1; 1)) ·12. Вопрос о том, какое действие следует выбирать агенту, остается открытым. Единственно, можно констатировать, что, обладая информацией только о множестве возможных значений состояния природы, i-ый агент может выбирать одно из действий k xiг, i = 1, 2; k = 1, 2, ..., определяемых выражениями (12) и (15). Доопределить рациональный выбор агента в рассматриваемой модели можно следующим образом. Если агенту неизвестна целевая функция оппонента (что исключено в рамках предположения о том, что целевые функции и допустимые множества являются общим знанием), то единственным его рациональным действием является выбор (12), то есть классический МГР. В рамках введенных предположений агенту известна целевая функция оппонента, а также известно, что оппоненту известен этот факт и т.д. Поэтому с точки зрения агента нерационально использование классического МГР, и ему следует рассчитывать, как минимум, что оппонент будет ис11 В качестве отступления заметим, что, если в рассматриваемом примере целевая 2 функция второго агента имеет вид f2(x1, x2) = x2 + x2 /2x1, то у него существует доминантная стратегия (равная единице), и последовательность гарантирующих стратегий первого агента стабилизируется уже на втором члене: 2 г i x x 2 xiг. Символ «·» здесь и далее обозначает окончание примера или доказательства. 36 = e, = 1/2. Если первый агент может вычислить доминантную стратегию своего оппонента, то представляется рациональным выбор им действия 12 г 1 i пользовать МГР, что приведет к выбору 2 xiг. Но, опять же, в силу того, что целевые функции являются общим знанием, агент может предположить, что такой ход его рассуждений может быть восстановлен оппонентом, что сделает целесообразным выбор 3 xiг и т.д. до бесконечности. Следовательно, с точки зрения агента остается неопределенность относительно «ранга рефлексии» оппонента13. Относительно этого параметра он не имеет никакой информации (если у агента имеются некоторые убеждения по этому поводу, то может реализоваться соответствующее субъективное равновесие), что делает рациональным использование гарантированного результата по «рангу рефлексии» оппонента: (16) x’i = arg max min min fi(q, xi, j x-г i). xi Î X i j =1, 2,... q ÎW Отметим, что, во-первых, x’i может отличаться от классической гарантирующей стратегии 1 xiг, определяемой выражением (12). Вовторых, при использовании стратегии (16) факт наличия доминантной стратегии оппонента будет учтен агентом (см. сноску в примере 1). В таблице 2 приведены значения целевой функции первого агента в примере 1 в зависимости от «ранга рефлексии» оппонента и соответствующие действия оппонента. Видно, что при использовании стратегии (16) выигрыш i-го агента равен e + d, что превышает выигрыш e, получаемый при использовании классического МГР. Табл. 2. Выигрыши первого агента в примере 1 j г 2 г 2 2 f1(BR1(j x), j x) j x2г 1 2 3 4 5 6 7 e+d e+d e + 2d e + 2d e + 3d e + 3d e + 4d e+d e+d e + 2d e + 2d e + 3d e + 3d e + 4d 13 Другими словами, исходная игра может быть заменена на игру, в которой агенты выбирают ранги своей рефлексии. Для нової гри можуть бути побудовані також рефлексивні аналоги і т.д. до нескінченності (див. приклади: «Пенальті» – у вступі, «Гра у хованки» та «Знесення на мізері» – у розділі 2.2). Одним із можливих способів боротьби з подібною «нескінченністю» є використання гарантованого результату за рангом рефлексії опонента. Іншим можливим способом, ефективним для кінцевих ігор є визначення максимального доцільного рангу рефлексії агентів – див. розділ 2.2. 37 Таким чином, раціональним у розглянутій моделі можна вважати використання агентом стратегії (15) або (16). Перший ранг рефлексії. Припустимо тепер, що агент має певну інформацію про стан природи, яку вважає істинною, і більше нічого достовірно невідомо. В рамках існуючої невизначеності в силу принципу детермінізму у агента, що здійснює стратегічну рефлексію, є дві альтернативи – або припустити, що його опонент не має жодної інформації, або вважати, що останній має ту саму інформацію, що і він сам14. Якщо агент не запроваджує жодних припущень про інформованість та принципи поведінки опонента, то він змушений застосовувати принцип максимального гарантованого результату (МГР) – жодної додаткової (порівняно з розглянутою вище моделлю нульового рангу рефлексії) інформації про опонента у агента не додалося15 – тобто розраховувати на найгірший йому вибір другого агента з безлічі стратегій типу (16). стратегією, Що Гарантує, буде: (17) xiг (qi) = arg max min fi (qi, xi, j x-г i). xi Î X i j =1, 2,... Зазначимо, що, перебуваючи в інформаційній ситуації, відповідної моделі, що розглядається, обчислюючи (17), агент розглядає опонента як перебуває в інформаційній ситуації, що відповідає попередньої моделі. Цей загальний принцип - володіючи деякою інформацією, агент може розглядати опонента як того, що має або той же, або на одиницю менший ранг рефлексії - буде використаний і в інших рефлексивних моделей прийняття рішень. Якщо перший агент вважає, що його опонент має ту саму інформацію, що і він сам (аналогічно може міркувати і другий агент – див. припущення П1 в ), то він обчислює суб'єктивне 14. Даний принцип (і його узагальнення) буде широко використовуватися нижче при визначенні кінцевих інформаційних структур – справді, володіючи інформацією Ii, i-ий агент може у разі невизначеності приписувати іншим агентам лише інформованість, погоджену з Ii. 15 Звичайно, агент може припускати, що опонент має деяку інформацію, але оскільки ця інформація не фігурує в моделі, то розглядати подібні припущення ми не будемо. 38 рівновагу (тобто «рівновагу Неша» для відповідного суб'* * ективного опису гри) EN(q1) = ((x11 (q1), x12 (q1))) наступного виду: * * * (18) " x1 Î X1 f1 (q1, x11 (q1), x12 (q1)) ³ f1(q1, x1, x12 (q1)), * * * " x2 Î X2 f2(q1, x11 (q1), x12 (q1)) ³ f1( q1, x11 (q1), x2). Змістовно, наведені системи нерівностей відображають обчислення першим агентом «свого» рівноваги Неша та вибір відповідної координати цієї рівноваги. У загальному випадку агент та його опонент обчислять різні рівноваги – збіг можливий, якщо поінформованість така, що xij*(qi) = x*jj(qj), i, j = 1, 2. Таким чином, раціональним у моделі першого рангу рефлексії можна вважати вибір агентом або рефлексивної стратегії, що гарантує (17), або суб'єктивної рівноваги (18). Суб'єктивна рівновага (18), що визначається першим агентом, може бути умовно зображено у вигляді графа з двома вершиx12 x1 нами x1 і x12, відповідними першому агенту і його уявленням про другого агента16 (див. рисунок 1). Вхідні стрілки при рівновазі в першому моделі відображають ту інформацію, стратегічної рангу яку використовує кожен з рефлексії про агентів опонента. Другий ранг рефлексії. У моделі другого рангу рефлексії iй агент володіє інформацією про уявлення qij опонента про стан природи і про власні уявлення qii про стан природи (вважатимемо, що qi = qii – див. аксіому автоінформованості нижче). Агент може розраховувати, що його опонент вибере стратегію, що гарантує (в рамках знання qij). Тоді найкращою відповіддю буде 16 Подібні агенти, що існують у уявленнях інших агентів, називаються фантомними агентами. 39 (19) 2 xiг = arg max fi(qi, xi, x-г i (qij)), xi Î X i г -i де x (qi, -i) визначається (17). Крім гарантуючої стратегії (19), перший агент може обчислити суб'єктивну рівновагу * * EN (q1, q12) = ((x11 (q1, q12), x12 (q1, q12))) наступного виду: * * * (q1, q12) , x12 (q1,q12)) ³ f1(q1, x1, x12 (q1,q12)), (20) x1 Î X1 f1(q1, x11 * * * ) q12), x12 (q1,q12)) ? ³ f2(q12, x1, x12 (q1,q12)).Як і в попередній моделі, в загальному випадку перший агент і його опонент обчислять різні рівноваги. (19), або суб'єктивної рівноваги (20) Зазначимо, що перші дві системи нерівностей (20) відображають рівновагу Неша з точки зору x12 x1 першого агента, а друга і третя система нерівностей – рівновага Неша, яку повинен визначити другий агент з точки зору перx121 вого агента - див. граф малюнку 3, у якому пунктиром обведена Рис. 3. Суб'єктивна «модель» другого агента, яку використовує перший агент при рівновазі в моделі RDM2 прийнятті рішень. Проведений аналіз найпростіших моделей стратегічної рефлексії перших кількох рангів свідчить, що у разі кількох агентів та недостатньої їхньої поінформованості можна розглядати процеси прийняття ними рішень незалежно – кожен із них моделює поведінку своїх опонентів, тобто прагне побудувати власну замкнуту модель гри (див. обговорення відмінностей суб'єктивного). та об'єктивного опису гри в). У разі загального знання суб'єктивні моделі збігаються. 40 Вище ми розглянули рефлексію нульового, першого та другого рангів. Нарощування рангів рефлексії можна за аналогією робити й надалі. Істотними у всіх моделях є припущення агента у тому, який ранг рефлексії має його опонент, тобто, фактично, ранг рефлексії агента визначається тим, який ранг рефлексії він приписує опоненту. Жодних розумних рекомендацій, що обмежують зростання рангу власної рефлексії, апріорі агенту запропонувати не можна. З цієї точки зору можна констатувати, що немає універсальної концепції рівноваги для ігор зі стратегічною рефлексією. Єдиним виходом є використання в цьому випадку або МГР за рангами рефлексії опонента, або суб'єктивної рівноваги, в рамках якого кожен агент запроваджує певні припущення про ранг рефлексії опонента і вибирає свою дію, оптимальну в рамках цих припущень. Тому зосередимо основну увагу на вивченні випадків, коли необмеженого зростання рангу рефлексії не відбувається. Існують дві причини, через які ранг рефлексії може виявитися кінцевим. По-перше, це – недоцільність збільшення рангу рефлексії, понад деякого, з погляду виграшу агента (коли подальше збільшення рангу рефлексії явно не призводить до збільшення виграшу). По-друге, можливості людини з переробки інформації обмежені, і нескінченний ранг рефлексії є лише математичною абстракцією. Тому в наступних розділах цієї глави наводяться моделі, що враховують обидві наведені причини – у розділі 2.2 на прикладі біматричних ігор визначається максимальний доцільний ранг стратегічної рефлексії, а розділ 2.3 досліджується роль інформаційних обмежень. 2.2. РЕФЛЕКСІЯ У БІМАТРИЧНИХ ІГРАХ Основна ідея, що розвивається в цьому розділі, полягає в тому, що в біматричних іграх17, в яких не існує рівноваги Неша, або в яких при існуючій рівновазі Неша агенти вибирають суб'єктивні стратегії, що гарантують (див. 17 Нагадаємо, що біматричними називаються кінцеві ігри двох осіб. 41 попередній розділ цієї роботи) виграш кожного з агентів залежить як від його рангу рефлексії, так і від рангу рефлексії опонента. Крім того, вказується, що необмежене збільшення рангу стратегічної рефлексії не призводить до збільшення виграшу. Перейдемо до формального опису. Розглянемо біматричну ігру18, в якій виграші першого та другого агентів задаються матрицями A = ||aij|| та B = ||bij|| розмірності n m відповідно. Позначимо19 I = (1, 2, …, n) – безліч дій першого агента (що вибирає рядок), J = (1, 2, …, m) – безліч дій другого агента (що вибирає стовпець). У грі, що гарантують, стратегії агентів такі: i0 Î Arg max min aij, j0 Î Arg max min bij. iÎI jÎJ jÎJ iÎI Введемо такі припущення. Нехай матриці виграшів такі, що кожна дія кожного агента є найкращою відповіддю на деяку дію опонента, і нехай, крім того, найкраща відповідь на кожну дію опонента єдина (якщо найкращих відповідей кілька, то можна ввести правило, що визначає вибір агента).20 Отже, при визначенні найкращих відповідей замість виразів «i… Î Arg max …» та iÎI «j… Î Arg max …» можна використовувати, відповідно, вирази jÎJ «i… = arg max …» та «j… = arg max …». iÎI jÎJ Позначимо a0 = max min aij, b0 = max min bij – максимальні jÎJ jÎJ iÎI ні гарантовані результати (МГР) першого та другого агентів відповідно. 18 Так як матричні ігри(антагоністичні кінцеві ігри двох осіб) є окремим випадком біматричних ігор, то всі наведені в цьому розділі результати справедливі і для матричних ігор. 19 Сподіватимемося, що використання одного і того ж (історично сформованого) позначення для інформаційної структури та безлічі дій першого агента не призведе до плутанини. 20 Якщо відмовитися від цих припущень, то всі отримані в цьому розділі результати залишаться в силі, оскільки припущення, що вводяться, дозволяють отримати для максимального доцільного рангу стратегічної рефлексії оцінку зверху. 42 Визначимо рефлексивну біматричну гру MGkl (matrix game) як біматричну гру з матрицями A і B, у якій перший і другий агенти мають ранги рефлексії, рівні k і l відповідно, k, l Î À, де À – безліч натуральних чисел. Пояснимо, що розумітиметься під рангом рефлексії (точніше – під рангом стратегічної рефлексії) у біматричних іграх. У біматричних (і не тільки біматричних - див.) Іграх вибір дій агентами може здійснюватися на підставі знання рангів рефлексії опонента. Ранги рефлексії визначаються в такий спосіб. «Агент має нульовий ранг рефлексії, якщо він знає лише матрицю платежів. Агент має перший ранг рефлексії, якщо він вважає, що його противники мають нульовий ранг рефлексії, тобто знають лише матрицю платежів. Взагалі, агент з k-им рангом рефлексії передбачає, що його противники мають k-1 ранг рефлексії. Він проводить за них необхідні міркування щодо вибору стратегії та обирає свою стратегію на основі знання матриці платежів та екстраполяції дій своїх супротивників» . Наведемо ілюстративний приклад. Приклад 2 (Гра у хованки) . Перший агент ховається в одній із кількох кімнат різного освітлення, а інший агент повинен вибрати ту кімнату, де його шукатиме. Ступені освітленості відомі обом агентам. Стратегії агентів такі. Той, хто шукає за інших рівних умов, воліє шукати, де світліше (там простіше знайти). Хованому зрозуміло, що у більш темній кімнаті шансів знайти його менше, ніж у освітленій. Зростання рангу рефлексії означає, що агенту стає зрозуміло, що це і його противнику, тощо. Представимо ранги рефлексії агентів та відповідні дії щодо вибору кімнат у вигляді таблиці 3. Табл. 3. Ранг рефлексії агентів і відповідні дії з вибору кімнат Ранг рефлексії агента Кімната, що вибирається прихованим 0 Найтемніша 1 Будь-яка, крім найсвітлішої 2 Будь-яка, крім найтемнішої 3 Найсвітліша 4 Найтемніша 43 Кімната, що вибирається Шукає Найсвітліша Можна побачити, що після другого рангу рефлексії вичерпується все безліч допустимих дій, а після третього рангу рефлексії стратегії вибору кімнат починають повторюватися. Цей факт був ілюстрацією того, що у грі двох осіб збільшення рангів рефлексії вище за певне об'єктивно не дає нічого нового, хоча суб'єктивне наростання складності може продовжуватися. Невідповідність рангів рефлексії успішності діяльності полягає у наступному. Нехай ховається має 0-й ранг (ховається в темній кімнаті). Якщо при цьому шукає має 1-й ранг, то він завжди виграє (шукає в темній кімнаті). Але якщо той, хто шукає, має 3-й ранг (шукає в будь-якій кімнаті, крім найтемнішої), то він завжди програє хованому з 0-м рангом, оскільки той, як ми пам'ятаємо, не утрудняючись міркуваннями про те, що думає противник, ховається саме в цій найтемнішій кімнаті, куди шукаючи, провівши серію рефлексивних міркувань, ніколи не зазирне. Таким чином, неможливо однозначно стверджувати, що вищий ранг рефлексії краще нижчого. Перевага того чи іншого рангу визначається його взаємодією з рангом рефлексії противника. · Так як в біматричних іграх передбачається, що кожен агент має певне переконання про ранг рефлексії опонента, то це дозволяє використовувати поняття суб'єктивної стратегії, що гарантує. Визначимо суб'єктивні стратегії, що гарантують, у біматричній грі MGkl: (21) ik = arg max aijk -1 , jl = arg max bil -1 j , k, l Î À. iÎI jÎJ Таким чином, гра MG00 збігається з вихідною грою, а «рівновагою» у грі MGkl є (aik jl; bik jl), k, l Î À. Зазначимо два цікаві факти. По-перше, виграш будь-якого агента в грі MGkl при k ³ 1, l ³ 1 може виявитися меншим за максимальний гарантований (див. приклад «Знесення на мізері» нижче). По-друге, приписи44 вання кожним агентом опоненту рангу рефлексії на одиницю менше його власного суперечливо, оскільки у грі MGkl при k ³ 1, l ³ 1 це означає, що має одночасно виконуватися l = k – 1 і k = l – 1, що, мабуть, неможливо. Отже, рівновага в рефлексивній грі є істотно суб'єктивним, і апріорі агенти не знають в яку гру вони грають (ранги рефлексії обох агентів не можуть бути загальним знанням, оскільки це суперечило б визначення рангу рефлексії). Тому перспективним напрямом майбутніх досліджень є вивчення інформаційної рефлексії щодо рангів рефлексії агентів у біматричних іграх. Внутрішня суперечливість стратегічної рефлексії в біматричних іграх може бути проілюстрована наступною схемою – на малюнку 4а наведено суб'єктивний опис гри MGkl у термінах графа рефлексивної гри з точки зору першого агента, малюнку 4б – суб'єктивний опис тієї ж гри з точки зору другого агента. i0 j0 i0 j0 i1 j1 i1 j1 … … ik-2 jk-2 il-2 jl-2 ik-1 jk-1 il-1 jl-1 ik ? Мал. 4а. Суб'єктивний опис гри MGkl з погляду першого агента? jl Мал. 4б. Суб'єктивний опис гри MGkl з точки зору другого агента 45 Кілька забігаючи вперед (див. розділ 3.4), відзначимо, що граф рефлексивної гри має ту властивість, що число дуг, що входять до кожної його вершини, має бути на одиницю менше, ніж кількість агентів ( тобто в біматричних іграх дорівнювати одиниці). Суб'єктивні рівноважні дії виділені жирним шрифтом і призводять до рівноваги (ik, jl). Дії ik-1 для першого агента та jl-1 для другого не використовуються у відповідних суб'єктивних описах гри (див. знаки питання на малюнку 4), тобто кожне з них виявляється внутрішньо незамкнутим. Завершивши коротке обговорення внутрішньої суперечливості визначення рангу стратегічної рефлексії у біматричних іграх, повернемося до дослідження залежності суб'єктивної рівноваги та виграшів агентів від рангів їхньої рефлексії. Позначимо IK = ik , JL = jl , K = 0, 1, 2, …, U U k =0 ,1,...,K l =0 ,1,...,L L = 0, 1, 2, … . Під I і J будемо розуміти відповідні об'єднання по всіх рангах рефлексії від нуля до нескінченності. Якщо одному агенту (або обом агентам) невідомий ранг рефлексії опонента, то доцільним є розгляд гри MG¥¥, в якій кожен агент обчислює гарантований результат за рангом рефлексії опонента. Введемо стратегії, що гарантують, відповідні повній невизначеності щодо рангу рефлексії опонента: (22) i ¥ = arg max min aij, j ¥ = arg max min bij. iÎI jÎJ ¥ jÎJ iÎI ¥ Аналогічно можна визначити стратегії, що гарантують, в рамках інформації про те, що ранг рефлексії опонента не перевищує відомої величини (тобто перший агент вважає, що ранг рефлексії другого не вище L, а другий – що ранг рефлексії першого не вище K ): (23) iL = arg max min aijl , jK = arg max min bik j . iÎI lÎJ L jÎJ kÎI K Зазначимо, що у (23), на відміну (21), стратегія кожного з агентів залежить від його власного рангу рефлексії, а визначається інформацією рангу рефлексії опонента. Вирази (21)-(23) не вичерпують всього різноманіття можливих ситуацій, оскільки, наприклад, перший агент може припустити, що другий вибере j¥, і тоді його найкращою відповіддю буде arg max aij¥ і т.д. Крім того, хоча до збільшення рангу рефлексії iII здатні лише "сильні" агенти, інтуїтивно зрозуміло, що при зростанні цього рангу, тобто при подовженні ланцюжка міркувань "я думаю, що він думає, що я думаю..." є небезпека "перемудрити" ». Сильний агент із високим рангом рефлексії переоцінює супротивника, припускаючи, що в нього ранг рефлексії теж високий. Але, якщо ранг суперника насправді низький, це призводить до програшу слабшого супротивника – див. приклади «Гра у хованки» та «Знесення на мізері». Отже, необхідне систематичне дослідження співвідношення виграшів агентів залежно від типу гри, що розігрується. Наведемо результати цього дослідження. Істотним для нашого розгляду є наявність або відсутність рівноваги Неша, а також вибір агентами (і використання при побудові суб'єктивних рівноваг) гарантуючих стратегій або дій, рівноважних Нешу. Таким чином, можливі такі чотири ситуації. Варіант 1 (рівновагу Неша в чистих стратегіях існує, і агенти орієнтуються на рівноважні по Нешу дії). Позначимо (i*; j*) – номери рівноважних по Нешу чистих стратегій. Тоді, якщо за аналогією з (21) вважати, що в рефлексивній грі кожен агент вибирає свою найкращу відповідь на вибір опонентом відповідної компоненти рівноваги, то отримаємо, що j = arg max aij* , k, l Î À. iÎI jÎJ З (24) в силу визначення рівноваги Неша випливає, що ik = i*, jl = j*, k, l Î À, тобто в рамках варіанта 1 стратегічна рефлексія безглузда21 (за винятком, можливо, випадки, коли найкращі відповіді визначаються в такий спосіб, що агенти вибирають компоненти різних рівноваг Неша у разі, коли останніх кілька). Варіант 2 (рівновагу Неша в чистих стратегіях існує, але агенти вибирають стратегії, що гарантують (21)). 21 Під безглуздістю стратегічної рефлексії в біматричних іграх розумітимемо випадок, коли рівновага у рефлексивній грі з будь-якою комбінацією ненульових рангів рефлексії агентів збігається з рівновагою у вихідній грі. 47 Якщо стратегії, що гарантують, утворюють рівновагу Неша (як це має місце в антагоністичних іграх з сідловою точкою), то потрапляємо в умови варіанта 1. Отже, стратегічна рефлексія має сенс, тільки якщо в рамках варіанта 2 рівновага Неша не збігається з рівновагою гарантуючих стратегіях (i0, j0). Варіант 3 (рівноваги Неша в чистих стратегіях немає, і агенти орієнтуються на рівноважні по Нешу змішані стратегии22). Якщо агенти при визначенні своїх найкращих відповідей за аналогією з (24) розраховують на те, що опонент вибере рівноважні по Нешу змішані стратегії, то легко показати, що максимум очікуваного виграшу кожного агента буде досягатися при виборі також відповідної рівноважної по Нешу змішаної стратегії. Отже, у межах варіанта 3 будь-яка рівновага збігається з рівновагою Неша у змішаних стратегіях, тобто стратегічна рефлексія у разі безглузда. Варіант 4 (рівноваги Неша в чистих стратегіях не існує, і агенти орієнтуються на стратегії, що гарантують (21)). У четвертому варіанті аналіз рефлексії, очевидно, має сенс. Таким чином, розглянувши всі чотири можливі варіанти поведінки агентів, отримуємо, що обґрунтовано справедливість наступного твердження. Твердження 1. Стратегічна рефлексія в біматричних іграх має сенс, якщо агенти використовують суб'єктивні стратегії, що гарантують (21), які не є рівноважними по Нешу. Позначимо (25) Kmin = min (K Î À | IK = I¥), (26) Lmin = min (L Î À | JL = J¥). Змістовно, Kmin і Lmin - мінімальні ранги рефлексії першого і другого агентів, при яких їх безлічі суб'єктивних рівноважних дій збігаються з максимально можливими в грі, що розглядається, множинами суб'єктивних гарантуючих стратегій. 22 Нагадаємо, що в біматричних іграх рівновага Неша у змішаних стратегіях завжди існує. 48 З огляду на визначення " K, L Î À IK Í IK+1, JL Í JL+1. Значить " K ³ Kmin IK = I¥, " L ³ Lmin JL = J¥. Якщо ранг рефлексії першого і другого агентів не перевищує K і L відповідно, то безліч суб'єктивних гарантуючих стратегій першого і другого агентів з точки зору опонента дорівнюють IL-1 і JK-1 відповідно.< Kmin, (28) K – 1 < Lmin. Отметим, что с рассматриваемой точки зрения максимальный целесообразный ранг рефлексии23 первого агента зависит от свойств субъективных гарантирующих стратегий второго агента (см. (28)), и наоборот. С другой стороны, агенту не имеет смысла увеличивать ранг своей рефлексии, если он уже «исчерпал» собственное множество возможных субъективных равновесных действий. С этой точки зрения увеличение рангов рефлексии может приводить к расширению множества субъективных гарантирующих стратегий, если (29) K < Kmin, (30) L < Lmin. Объединяя (28) и (29), а также (27) и (30), получаем, что первому агенту не имеет смысла увеличивать свой ранг рефлексии выше (31) Kmax = min {Kmin, Lmin + 1}, а второму агенту не имеет смысла увеличивать свой ранг рефлексии выше (32) Lmax = min {Lmin, Kmin + 1}. Обозначим (33) Rmax = max {Kmax, Lmax}. Таким образом, доказана справедливость следующего утверждения. 23 Под максимальным целесообразным рангом рефлексии агента будем понимать такое его значение, что увеличение ранга рефлексии выше данного не приводит к появлению новых субъективных (с точки зрения данного агента) равновесий. 49 Утверждение 2. Использование агентами в биматричной игре рангов стратегической рефлексии выше, чем (31) и (32), не имеет смысла24. Утверждение 2 дает возможность в каждом конкретном случае (для конкретной разыгрываемой игры) каждому агенту (и исследователю операций) вычислить максимальные целесообразные ранги стратегической рефлексии обоих агентов. Так как величины (31)-(33) зависят от игры (матриц выигрышей), то получим оценки зависимости этих величин от размерности матриц выигрышей (очевидно, что |I¥| £ |I| = n, |J¥| £ |J| = m, а для игр размерности два справедлива более точная оценка – см. утверждение 3). Для этого введем в рассмотрение граф наилучших ответов. Графом наилучших ответов G = (V, E) назовем конечный двудольный ориентированный граф, в котором множество вершин V = I È J, а дуги проведены от каждой вершины (соответствующей действию одного из агентов) к наилучшему на нее ответу оппонента. Опишем свойства введенного графа: 1. Из каждой вершины множества I выходит дуга в вершину множества J (у второго агента есть наилучший ответ на любое действие первого агента), из каждой вершины множества J выходит дуга в вершину множества I (у первого агента есть наилучший ответ на любое действие второго агента). 2. В каждую вершину множества V входит ровно одна дуга (так как каждое действие каждого агента является наилучшим ответом на какое-либо действие оппонента). 3. Если любой путь дважды прошел через одну и ту же вершину, то по определению наилучших ответов его часть является контуром, и в дальнейшем новых вершин в этом пути не появится. 4. Максимальное число попарно различных действий первого агента, содержащихся в пути, начинающемся в вершине i0, равно min (n; m + 1). 5. Максимальное число попарно различных действий второго агента, содержащихся в пути, начинающемся в вершине i0, равно min (n; m). 24 То есть для любого ранга рефлексии, превышающего указанные оценки, найдется ранг рефлексии, удовлетворяющий указанным оценкам и приводящий к тому же субъективному равновесию. 50 6. Максимальное число попарно различных действий первого агента, содержащихся в пути, начинающемся в вершине j0, равно min (n; m). 7. Максимальное число попарно различных действий второго агента, содержащихся в пути, начинающемся в вершине j0, равно min (n + 1; m). Выявленные свойства графа наилучших ответов позволяют получить оценки сверху целесообразных рангов стратегической рефлексии в биматричных играх. Утверждение 3. В биматричных играх 2 ´ 2, в которых не существует равновесия Нэша, I¥ = I, J¥ = J. Доказательство. Рассмотрим произвольную биматричную игру 2 ´ 2, в которой не существует равновесия Нэша. Пусть X1 = {x1, x2}, X2 = {y1, y2}. Вычислим гарантирующие стратегии i0 и j0. Положим для определенности x1 = i0, y1 = j0. Возможны два взаимоисключающих варианта: j1 = y1 и j1 = y2. Если j1 = y1, то i1= i2 = x2 (иначе (x1, y1) – равновесие Нэша). Тогда j2 = j3 = y2 (иначе (x2, y1) – равновесие Нэша). Следовательно, i3 = i4 = x1 (иначе (x2, y2) – равновесие Нэша). То есть в первом случае I¥ = I, J¥ = J. Если j1 = y2, то i2 = x2 (иначе (x1, y2) – равновесие Нэша). Тогда j3 = y1 (иначе (x2, y2) – равновесие Нэша). Следовательно, i4 = x1 (иначе (x2, y1) – равновесие Нэша). То есть во втором случае также I¥ = I, J¥ = J. · Качественно, утверждение 3 означает, что в биматричной игре 2 ´ 2, в которой не существует равновесия Нэша, любой исход может быть реализован как субъективное равновесие. Перспективным направлением дальнейших прикладных исследований можно считать анализ субъективных равновесий в базовых ординарных играх двух лиц 2 ´ 2 (напомним, что существуют 78 структурно различных ординарных игр, то есть игр, в которых оба агента, каждый из которых имеет два допустимых действия, может строго упорядочить собственные выигрыши от лучшего к худшему ). Утверждение 3 наводит на мысль, что, быть может, во всех биматричных играх, в которых не существует равновесия Нэша, выполнено I¥ = I, J¥ = J. Контрпримером служит приведенный на 51 рисунке 5 граф наилучших ответов в игре 4 ´ 4, в котором вершины i0 и j0 затенены. I¥ I J¥ J Рис. 5. Пример графа наилучших ответов в биматричной игре 4 ´ 4, в которой I¥ Ì I, J¥ Ì J Имея грубые оценки сверху (|I¥| £ n, |J¥| £ m) «размеров» множеств I¥ и J¥, исследуем, как быстро (при каких минимальных рангах стратегической рефлексии) эти множества «покрываются» соответствующими субъективными равновесиями. Третье свойство графа наилучших ответов означает, что в биматричной игре целесообразное увеличение ранга стратегической рефлексии, начиная со второго шага, обязательно изменяет множество стратегий, которые должны быть субъективными гарантирующими при рангах рефлексии меньших или равных данному. Так как в биматричных играх множества допустимых действий конечны, то конечны множества I¥ и J¥, следовательно, в силу свойств 4-7 графа наилучших ответов конечны и величины Lmin и Kmin, то есть в биматричных играх неограниченное увеличение ранга рефлексии заведомо нецелесообразно. Опять же в силу конечности допустимых множеств, величины (31) и (32), определяющие максимальные целесообразные ранги рефлексии, могут быть легко рассчитаны для любой конкретной биматричной игры. Но свойства графа наилучших ответов позволяют получить конкретные оценки сверху максимальных целесообразных рангов рефлексии. 52 В биматричной игре n ´ m гарантированные оценки25 величин (31)-(33), очевидно, будут зависеть от размерности матриц выигрышей, то есть Kmin = Kmin(n), Lmin = Lmin(m). Следовательно, (34) Kmax(n, m) = min {Kmin(n), Lmin(m) + 1}, (35) Lmax(n, m) = min {Lmin(m), Kmin(n) + 1}. Выражение (33) примет при этом вид: (36) Rmax(n, m) = max {Kmax(n, m), Lmax(n, m)}. Из свойств 4-7 графа наилучших ответов и выражений (34)-(36) следует справедливость следующего утверждения. Утверждение 4. В биматричных играх n ´ m максимальные целесообразные ранги стратегической рефлексии первого и второго агентов удовлетворяют следующим неравенствам (37) Kmax(n, m) £ min {n, m + 1}, (38) Lmax(n, m) £ min {m, n + 1}, (39) Rmax(n, m) £ max {min {n, m + 1}, min {m, n + 1}}. Следствие 1. В биматричной игре n ´ n, n ³ 2, максимальный целесообразный ранг стратегической рефлексии любого агента26 Rmax(n, n) £ n. Для случая двух допустимых действий (в силу его распространенности в прикладных моделях) сформулируем отдельное следствие. Следствие 2. В биматричной игре 2 ´ 2 максимальный целесообразный ранг рефлексии не превосходит двух. Еще раз отметим, что оценки (37)-(39) являются оценками сверху – существование нескольких наилучших ответов на одно и то же действие, наличие в исходной игре равновесия Нэша или доминируемых стратегий может привести

Пасьянс Солітер