Почну потрохи писати лекцію з причинності і всякого такого. Наперед дякую за коментарі і запитання -- воно мені допоможе... а вас, можливо, зацікавить. Тих же, хто все це прекрасно знає і без мене, і краще за мене (боюся, таких тут більшість) перепрошую за зайвий шум. :)
Вступ
Перше, ніж повести мови про каузальність і всяке таке, давайте подивимося на кілька базових понять статистики і теорії імовірності. Вони не викарбувані в граніті, різні джерела вживають речі трохи по–різному, тому заодно просто звіримо термінологію. Дисклеймер: це не курс статистики, а розмова "на хлопський розум", тому деякі речі я навмисне спрощуватиму. Зате важливі поняття даватиму ще і англійською.
Імовірність (Probability). Одне з найбазовіших понять в нашому житті, і при цьому до смішного неінтуітивне. Хоча найпростіший випадок ще Ок: якщо ви знаєте, що може статися кілька подій, якщо уявити безліч світів, де ці події сталися, то ймовіність події
A буде писатися
P(
A) і дорівнюватиме частці всіх світів, де сталася подія
A, а не якісь альтернативні події. Аби не сперечатися на тему чи хоч щось станеться, давайте напишу це все контексті причинно-наслідковості: у кожної дії (причини), є якісь можливі насліди
A,
B,
C і т. д., і кожен з них має свою імовірність, так що сума всіх імовірностей
P(
A) +
P(
B) +
P(
A) + ... = 1. Причинно насліддковий звʼязок можна описати ось так:
Правдоподібність (Likelihood). Різниця з імовірністю в тому, що ми починаємо з якогось спостереження, тобто, ми бачимо наслідок, який може статися в результаті кількох різних причин. Нехай, у нас знову є безліч світів, у яких у всіх стався наш наслідок. Так от, правдоподібність події
A, позначається
L(
A), -- це частка цеї безлічі світів, у якій причиною цього насліду була саме дія
A:

Давайте проілюструємо це на прикладі. Чи не найкласичнішим засобом ілюстрацій після монет є гральні кубики, а.к.а. кості. Нехай у нас є три чесних кубики (чесних -- це таких, де сторони рівноімовірні, визначення виходить рекурсивним, але вдаватися в деталі облом), і ми граємо у гру, де ми міряєму суму, яка випала на цих трьох кубиках. Розподіл імовірностей для усіх можливих сум можна побачити нижче. Імовірність викинути суму, ну, наприклад, 14, буде
P(14) = 15/216 ≅ 7%, це частка комбінацій, які додаються до чотирнадцяти , з усіх можливих комбінацій, ось картинка:

З імовірністю чотирнадцяти все ясно. А для того, щоби ввести правдоподібність, треба задати додаткове запитання. Нехай ви знаєте, що випала сума 14, тоді додатковим запитанням буде "а яка правдоподібність того, що на всіх трьох кубиках були різні цифри?" (Відповідь -- 40%, звідки вона взялася, сподіваюся, ви побачите самі.) Або ще: знаючи, що сума трьох кубиків різних кольорів, жовтого, білого і сірого, складає 14, скажіть, з якою імовірністю жовтий кубик показує чотири? (Порахуйте це самі, в якості домашнього завдання.)
Одною з цілей вищенаписаного було показати вам, що навіть в найпростіших випадках, коли ми знаємо, що діється, ми не можемо точно передбачити, що в результаті станеться, лише надати якісь імовірності. І навпаки, навіть коли ми якось поміряли, що в результаті сталося, ми не обовʼязково знаємо, як воно прийшло до такого результату, і можемо лише оцінити правдоподібність різних комбінацій причин. Весь цей цурес і неконкретика називаються "
стохастичність".
Причинно-наслідковість / каузальність (Causality) стосується ближчого до реальності стану речей, а цей стан навіть в найпростіших прикладах є набагато складнішим, ніж перші дві картинки зі стрілочками. Почну з кінця: по-перше, у всякій життєвій ситуації наслідок рідко є чимось однозначним, а найчастіше є якийсь багатомірний простір наслідків. Який ми любимо проектувати на одну або більше лінійних числових метрик, як то "продажі товару", "сума крапочок на костях", "добре/погано", "оцінка на тесті" і ще мільйон інших. Найчастіше люблять вибрати якусь одну метрику ... що часто-густо веде до підміни усього багатства наслідків одною кількісною величиною, через що стається сама лише шкода і дуже небагато користі, бо ця одна метрика і надмірно спрощує, і неясно, чи ми правильно розуміємо механізм звʼязку цеї метрики з власне подіями. (Див.
помилка Макнамари і
закон Ґудгарта) По-друге, на відміну від задачок на ідеальні шестигранні кості або чесні монетки, ми майже ніколи точно не знаємо,
як саме та чи інша причина впливає на наш наслідок. Власне, встановлення цього механізму і є основною задачею каузального моделювання. По–третє, крім відомих причин
A,
B,
C з різними правдоподібностями і механізмами впливу, завжди є ще і невідомі причини. Ну і, нарешті, причини між собою ні разу не незалежні, тому, намагаючись зі спостережень встановити, як
A впливає на
Y, треба памʼятати, що розподіли спостережених
A і
Y дуже сильно розмиті всякими невідомими нам подіями і явищами, а, по–друге, що частина подій є
конфаундерами, або сплутуючими факторами, такими, які одночасно впливають на
A і
Y, вносячи байаси і іншу статистични не-незалежність в наші спостереження.
Базова картинка причинно наслідкового, наприклад, ось:

Типова задача буде, ну, наприклад, така: нехай
A -- якийсь педагогічний прийом на заняттях з англійської мови. Ну, наприклад, заміна одного із програмних творів на уроках англійської зі звичайного твору на комікс. А
Y -- стандартизований тест з англійської, який учні пишуть в кінці року. Відомі причини -- всякі інші оцінки і кількості годин учнів перед тестом. Невідомі причини -- все решта, від особи вчителя до того, що того року в телевізорі показують.
Як це робиться -- я буду писати в наступних розділах, а поки що, для лінивих, розкажу основну ідею і висновок:
- Основна ідея: першим ділом в таких задачах доводиться допускати функціональну форму механізму залежності. Найчастіше, вибирають лінійну залежність:
Y|A=1 = Y| A=0 + β,
де A-нуль відповідає звичайному твору, а одиниця -- коміксу... або навпаки, суть в тому, що ми перетворюємо причину на бінарну величину (можна небінарну, підхід аналогічний).
- Тоді, використовуючи всякі наближення і допущення, можна порахувати значення β, його і називають причинним впливом A→Y
- Ця бета -- вона завжди і тільки описує середній ефект
- Будь-які спроби прикинутися, ніби ви таким статистичним способом можете порахувати індивідуальний вплив, тобто, як A вплине на Y для одного конкретного учня (як причина вплине на наслідок в конкретному семплі), майже завжди -- відверта брехня і шахрайство.