malyj_gorgan: (Default)
[personal profile] malyj_gorgan
Переклад оцього.

ПОпулярний клас метрик, які дуже часто місінтерпретують -- різні типи скорингу (не плутати з рейтингом). Найпопулярніші -- кредитний, довіри, автоматизації, які означають, відповідно, імовірність, що особа віддасть певну позику, що це чесний юзер, а не шахрай, що це бот/скрипт, а не жива людина. Найчастіше ці цифри рахують як оцінку імовірності в класифікаторі машинного навчання, який тренують на передбаченні відомих ярликів зі змінних, що описують середовище і попередню історію юзера.

Хибність інтерпретації, яка змусила мене додати теґ ДІДАМ, -- наслідок тенденції ставитися до статистичних оцінок як до особистих параметрів. Люди не вміють в імовірності (доказ: азартні ігри), більшість з нас, почувши "кредитний скоринг Івана 0.6, а Петра 0.9", сприймає це як "Петро є в півтора рази (9/6) більш фінансово відповідальний, ніж Іван"

Але це бздура!

Найкраща ілюстрація -- скоринг автоматизації. Юзер не може бути ботом на 90% чи 60%, ти або людина або ні; людина з автоматизаційною оцінкою 0.9 на 100% більше людина, ніж бот з оцінкою 0.6. Аналогічно з фінансами: позика, віддана кредитором зі скорингом 600 -- це на 100% більше, ніж іпотека, не виплачена кимось з прекрасним високим скорингом 900.

Найочевидніша і вірна паралель тут -- профайлинг. Так, ставитися до когось виходячи лише з їх скорингу і є старим добрим профайлингом. І, як і з профайлингом, треба знати, коли і як його застосовувати. Оголосити когось поганим чи хорошим лише через оцінку імовірності -- неправильно. Планувати бізнес або інші акції, де треба думати про дивіденди і баланс витрат-прибуткі -- правильна і єдино можлива стратегія. Так просто.

Який висновок? Не переставати рахувати скоринг, але знати, як ними користуватися. Не відкидати профайлинг, але знати, де і коли його застосовувати.

Date: 2025-08-04 09:22 pm (UTC)
From: [personal profile] mprotsenko
Оголосити когось поганим чи хорошим лише через оцінку імовірності -- неправильно.

Оголошення когось поганим/хорошим - це не найбільша проблема. Завжди можна заткнутися і не оголошувати.

Проблема - це поводження з людиною як "хорошою"/"поганою" на базі профайлінга, а не собсна чеснот і вад конкретної людини.

Приклад: розмовляв не так давно з HR-кою української айті-компанії. Каже: "ми ветеранів не наймаємо, навіть резюме не розглядаємо, бо є підвищена ймовірність того, що вони поплавлені, з ПТСР-ом, а нам проблеми не потрібні". (При тому і компанія, і конкретна працівниця - не вата, люди цілком патріотичні, волонтерять, донатять, оцецевсе.)

Але якщо прибрати патріотичне обурення в сторону - то я не розумію, чим цей профайлінг краще аналогічного профайлінгу по кольору шкіри, гендеру, орієнтації тощо. Тим більш, що концентрація ПТСР серед ветеранів дійсно підвищена, а без публічних оголошень - яких нема! - профайлінг довести практично неможливо. І з точки зору бізнесу та прибутків-витрат-дивідендів - така стратегія не є неефективною. (Тим більш в умовах підвищеного безробіття, коли ціна помилки дуже мала.)


Але якщо що - я проти такого профайлінгу, а інший, хороший та якісний профайлінг - існує переважно в рожевих мріях "як зробити ідеально, якщо замість живих людей в нас будуть чесні і безпристрасні янголи". Ну, може, пара виключень є, в галузях, де байас визнається і офіційно контролюється - типу як в трансплантології.

Edited Date: 2025-08-04 09:53 pm (UTC)

Date: 2025-08-05 12:10 am (UTC)
From: [personal profile] mprotsenko
бо -- cost-benefit

Ці міркування часто (практично завжди) conviniently забувають про cost для суспільства. Приватизація доходів, соціалізація витрат - капіталізм він такий капіталізм. Чомусь в США панує думка, що бізнес і прибутки - це найвища цінність, і бізнес може існувати вільним від суспільства, і за його, суспільства, рахунок. Але такий тренд, хоч і приносить прибуток тут і зараз, але в довгостроковій перспективі шкодить усім. Класична tragedy of commons.

Тому, щоб хоча б наближатися до якогось прогресу - треба казати, що профайлінг є злом, який зробить погано людям, які на те погано не заслужили, тупо тому, що scores неідеальні. Тоді можна буде оцінити наслідки (і чесні costs!) того зла, і зробити нормальний cost-benefit analysis, а не так, що "спочатку ми їмо твоє, потім кожен своє".



Окрема проблема - в тому, що ззовні неможливо сказати, чи це індивідуальний профайлінг ("принципово не беремо на роботу ветеранів"), чи ні ("так склалося, що ми не рекламуємо ці позиції серед ветеранів і тому нікого не наймаємо"). По-перше, профайлер може тупо промовчати чи навіть збрехати. По-друге, часто люди займаються раціоналізацією, підганяють причини під вже прийняте рішення. Тому єдине, що ми можемо оцінити зльоту - це факт найму певного відсотка ветеранів по індустрії.

А вже по результату цих замірів вже можемо побачити і порахувати, що дискримінація ветеранів веде до безробіття, алкоголізму, злочинності і в результаті коштує суспільству більше, ніж найм тих ветеранів - і зробити висновок про те, що з таким профайлінгом треба боротися банально з точки зору cost-benefit для всього суспільства. (Звісно, "ветерани" можна замінити на будь-яку іншу групу.)

Edited Date: 2025-08-05 12:14 am (UTC)

Date: 2025-08-05 02:33 am (UTC)
From: [personal profile] mprotsenko
І називати його злом по умовчанню -- неправильно і шкідливо

Навпаки, ховати голову в пісок, і робити вигляд, що груповий профайлінг не приносить зла, не робить погано людям, які на то не заслуговують - не можна.

Ти тут казав про локальну користь. Так ось, в простому прикладі з наймом ветеранів - є мінімум дві різні типи локальної користі. (1) Користь для ветерана з потрібними навичками, який находить, або не находить роботу. (2) Користь для працедавця, який находить або не находить собі кваліфікованого працівника.

Так ось, питання - чому друга користь важливіша за першу? Це не просте питання, в ньому треба шукати баланс, але в твоїх прикладах імплікується те, що перша локальна користь взагалі неважлива, і що усі benefits, які ми враховуємо - це benefits для роботодавця, а не працівника.

Бачиш проблему?



Що значить -- неідеальні? Неточні? Я впевнений, що в наші часи більшість scores дуже точні.

Навіть якщо якісь scores помиляються в 5% випадків - в суспільстві з 300 млн людей це 15 мільйонів людей, яких профайлінг скривдив, поступив з ними несправедливо, за рахунок яких система зробила іншім добре. І добре, якщо це помилка, яку можна виправити, чи яка не дуже суттєво впливає на життя. Але буває, що і ні, впливає, і ще як впливає.

І це - зло. Це може бути злом, якому не можна запобігти. Це може бути меншим злом з усіх можливих альтернатив. Але це зло. Називати його добром (чи "ок") - не треба. Бо для пошуку оптимуму треба сказати про це зло, порахувати це зло і мінімізувати це зло - інакше ми перетворюємося на махрових лібертаріанців, якім прибуток тут і зараз важливіше за все, а далі хоч потоп.

І це ми тільки про scores кажемо - а інші класифікатори (які, в принципі, можна перетворити в дискретні scores) аж ніяк не є точними. Яка кореляція між наявністю соціально небезпечного ПТСР і фактом ветеранства? (Про колір шкіри, гендер чи національність не будемо навіть.) Ото ж і воно.




Вишенькою на торті - нагадаю, що збоку груповий вс індивідуальний профайлінг розрізнити в купі випадків неможливо - бо профайлери брешуть, або раціоналізують заздалегідь прийняте рішення. (тобто все одно брешуть, але вже самим собі).

Edited Date: 2025-08-05 03:20 am (UTC)

Date: 2025-08-05 02:56 pm (UTC)
From: [personal profile] mprotsenko
Усі бенефітс, які повинен враховувати у своїх діях роботодавець -- так, це бенефіти для нього. АЛе незрозуміло, чому ти заперечуєш, що користь другого порядку для робітників не є в інтересах роботодавця.

Хе, це цікаве питання. Теоретично - користь навіть першого порядку для робітників є в інтересах роботодавця, бо роботодавці - це частина суспільства. А на практиці - "ми ветеранів не наймаєм, луганчанам не здаємо", і теде, і тепе... Люди, сцк, не раціональні - ти в цьому можеш переконатися, просто подивившись за вікно.

Їх скривдив не скоринг сам по собі, а невірне його застосування

А ось тут я принципово не погоджусь. Навіть в найкращих моделях є частина помилкових відповідей, коли модель застосується 100% вірно - але дає неправильну відповідь, бо як ти правильно кажеш - модель ймовірнісна. І ці помилки - це зло, з яким треба боротися. Перемогти його 100% неможливо, але якщо його не називати тим, чим воно є, і не намагатися асимптотично наблизитися до його відсутності, то буде фігня.

Головна різниця між профайлінгом типу "МЛ, яка оцінує ризики, і не видає позику" та "ветеранів не наймаємо" - false positive rate. Але ніякого "невірного застосування профайлінгу" в обох випадках нема - він застосовується "по інструкції". І обидва випадки так чи інакше перетворюють імовірнісну оцінку на особистий параметр ("тобі не можна довіряти позику"/"тебе не можна наймати").

І так, ти правий, перший тип профайлінгу може бути мінімальним злом, бо його відсутність принесе більше проблем.

Але про це зло треба говорити, і ці проблеми треба вимірювати на рівні популяції. Бо багато типу профайлінгу і навіть скорінгу - не є "в середньому точними", часто і густо їх точність навіть тупо не вимірюється. Яскравий приклад скорінгу з сумнівною ефективністю - credit score. Для того, щоб прикинути його ефективність - треба як мінімум поміряти ефект без нього, зробити контрольну групу, що ніхто не робить.

Більш того, очевидно, що кількість помилок (в обидві боки - від subprime mortgage crysis до системних недооцінок платежеспроможності людей, які справедливо не довіряють кредитним карткам), які робить цей скорінг - занадто велика, і що на цій планеті існують більш ефективні варіанти цього скорінгу, які приносять менше зла.

І про це треба говорити, і щось з цим робити, а не сліпо довіряти бізнесу з його профайлінгом і скорінгом, який часто і густо помиляється і закриває свої помилки за рахунок суспільства (як в випадку з вишепроцитованим subprime mortgage crysis).


(Про ресурси та ветеранів окремим коментарем напишу)

Date: 2025-08-05 04:49 pm (UTC)
From: [personal profile] mprotsenko
Для мене користь другого порядку -- все, що не прямий вклад в бізнес конкретного працівника, а бенефіти від того, що ця людина працевлаштована взагалі

Ось це як раз принципова лібертаріанська помилка - лібертаріанці не рахують пряму користь для працівників, хоча для них (і для суспільства) це користь першого порядку, і незрозуміло, чому ця користь менш важлива, ніж користь для бізнесу.

І мій пост якраз про те, що індивідуальна класифікація тільки на базі імовірнісних оцінок -- це неправильно.

Тобто ти проти того, щоб блокувати транзакції виключно на основі рішення МЛ-моделей і приймати рішення про видачу позик виключно на основі credit score?

(Бо, пардон, це вже індивідуальна класифікація на основі ймовірнісних оцінок, як не крути!) Якщо так, то я приймаю твій аргумент, і погоджуюся з ним. Я ж правильно тебе зрозумів, чи ще є десь помилки?

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 05:19 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 05:47 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 07:52 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 10:21 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 10:50 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 11:24 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 05:13 pm (UTC) - Expand

Date: 2025-08-05 03:15 pm (UTC)
From: [personal profile] mprotsenko
Наприклад, чи потратити $A на людину в спільноті, де відсоток ветеранів В, якщо прибуток від одного вдалого найму $C

В твоїх міркуваннях є принципова помилка - ти не рахуєш збитки від безробіття ветеранів. Залишаючи мораль за кадром (бо яка мораль на ринку? ти за вікно дивився?) - ти знову ігноруєш локальну користь для ветеранів (чи інших членів суспільства взагалі), рахуючи тільки користь для роботодавця.

Я розумію, що з точки зору роботодавця на суспільство начхати, але в суспільній дискусії про це забувати не можна, інакше ми перетворюємося на екстремалів-лібертаріанців.

І навіть в твоїй спрощеній моделі треба рахувати збитки $Z (збитки від не-найму кваліфікованих працівників), і може бути ситуація, коли Z перевищує А, і навіть перевищує С! І тоді з точки зору суспільства треба витрачати більше, ніж A на працевлаштування ветеранів - бо інакше суспільство втрачає більше грошей на те, щоб спричинити більше зла оточуючим (безробіття, злочинність тощо)!

Побачивши це - має сенс пригадати, що ми не граємо в гру з нульовою сумою, кількість ресурсів в нас не є жорстко фіксованою (навіть якщо не є необмеженою), і з точки зору суспільства може бути сенс обкласти митом роботодавців (чи когось іншого), взяти позику та/або ввести примусовий контроль за дискримінацією при наймі - і витратити Z на найм, отримуючи кращий ROI при тих самих витратах (бо працевлаштована людина буде платити податки, і приносити користь).

Це, до речі, теж буде злом (ніхто не любить віддавати гроші державі) - але це може бути (і часто є) меншим злом навіть чисто по грошам. Але бізнес сам по собі на це ніколи не піде, він навіть не буде рахувати Z. Але ми мусимо.
Edited Date: 2025-08-05 03:16 pm (UTC)

Date: 2025-08-05 04:53 pm (UTC)
From: [personal profile] mprotsenko
Я хочу звернути твою увагу на те, що якщо розглядати ці вигоди як щось вторинне, другого порядку - то Z навіть не спадає на думку порахувати/розписати. (що ти і проілюстрував в своїх викладках - навіть якщо ти тримав це в голові, в тексті і розрахунках це не проявилося.)

Тому цій байас треба чЕкати, як на мене - тут різниця в термінології створює різницю в світогляді.
Edited Date: 2025-08-05 05:38 pm (UTC)

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-05 05:50 pm (UTC) - Expand

Date: 2025-08-05 07:17 am (UTC)
From: [personal profile] sassa_nf
(Я нещодавно начитався, то тепер всюди приміряю)

А що каже game theory?

Якщо на ринку будуть ті, хто профайлінг використовують, і ті, хто ігнорують, хто з них буде успішнішим? Стратегія має бути еволюційно стабільна, бо інакше носії такої стратегії вимруть.

Я вважаю, що треба розуміти проблеми, скажімо, працевлаштування ветеранів - об'єктивні чи ні не має значення, і формувати умови, у яких стабільною стратегією буде наймати ветеранів. Це може здатися тавтологією, але ж це якось так.

Date: 2025-08-05 03:00 pm (UTC)
From: [personal profile] mprotsenko
Якщо на ринку будуть ті, хто профайлінг використовують, і ті, хто ігнорують, хто з них буде успішнішим?

На ринку США будуть успішніші ті, хто too big to fail - ти можеш налажати з профайлінгом, як то було під час subprime mortgage crysis, але потім держава збере з ветеранів і неветеранів податки і віддасть їх банкам, які облажалися.

І це, сцк, не жарт. Більш того - це тільки частина проблеми. Кількість пільг, які отримає олігархат робить game theory - нерелевантною, бо вона має сенс тільки тоді, коли всі грають в одну гру по одним правилам, а це в реалі не так.

UPD: навіть якщо цю проблему залишити за кадром - все одно питання складне, бо банкінг це не тільки позики. Але в мене є рахунок в credit union, де офіційний credit score використовують опціонально - and they're doing just fine. Не жартую - коли я переїхав в штати, я відкрив в них рахунок і взяв позику, не маючи credit score взагалі.



формувати умови, у яких стабільною стратегією буде наймати ветеранів.

Amen, brother! Правда, для цього треба рахувати не тільки cost & benefits для бізнесу, про що ми з Ростиком і сперечаємося.
Edited Date: 2025-08-05 04:40 pm (UTC)

Date: 2025-08-05 11:19 pm (UTC)
From: [personal profile] sassa_nf
Ну, game theory якраз дозволяє різним гравцям грати по-різному.

> відкрив в них рахунок і взяв позику

Не може бути, щоб бізнесу було все одно на прибутки. За credit union не скажу, а за капітал уан скажу. Теж видавали кредитки усім, навіть банкрутам. Але відсоток був 24%.

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 12:20 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 12:24 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 04:29 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 02:44 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 09:02 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 01:27 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 02:21 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 06:16 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 04:39 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 05:26 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 06:29 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 07:53 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 09:23 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-08 12:01 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-08 03:16 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-08 08:37 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-08 09:50 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 10:03 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 01:44 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 02:13 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 05:57 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 03:57 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 04:54 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 07:04 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 03:59 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 04:50 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 05:14 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 05:34 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-07 06:22 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 03:22 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 10:26 pm (UTC) - Expand

Date: 2025-08-06 12:17 am (UTC)
From: [personal profile] mprotsenko
Не може бути, щоб бізнесу було все одно на прибутки.

Я не думаю, що їм було все одно на прибутки - але вони розуміли різницю між "нема credit score - ти лох" та "нема credit score, бо ти кваліфікований спеціаліст, який приїхав на нормальну роботу з нормальною зп". (Позику, до речі, дали, якщо не плутаю, під 4 з копійками відсотки - точної цифри не пам'ятаю, давно справа була.)

(no subject)

From: [personal profile] sassa_nf - Date: 2025-08-06 06:29 am (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 01:56 pm (UTC) - Expand

(no subject)

From: [personal profile] sassa_nf - Date: 2025-08-06 02:19 pm (UTC) - Expand

(no subject)

From: [personal profile] mprotsenko - Date: 2025-08-06 03:23 pm (UTC) - Expand

Date: 2025-08-05 08:25 pm (UTC)
From: [personal profile] mprotsenko
назвем їх представниками групи підвищеного ризику

Ще цікаве те, що практично будь-хто є представником групи підвищеного ризику, треба тільки чесно подивитися.



  • Ти білий випускник Гарварду, але катаєшся на лижах? Підвищений ризик травм, лікарняного, струсу мозку, пониженої продуктивності, і теде. Не катаєшся на лижах, сидиш на дивані? Підвищений ризик атеросклерозу, лікарняного і тепе.
  • Українець? Ну тут одразу клейма нема де ставити.
  • Немає дітей? Є підвищений ризик, що ти їх заведеш і підеш в декрет.
  • Є діти? Є підвищений ризик того, що вони будуть хворіти і ти не будеш нормально працювати.
  • Молодий? Є ризик того, що ти будеш гуляти, бухати і пропускати роботу. Старий? Будеш хворіти і сидіти на лікарняному.


Коротше, б було бажання - а група підвищеного ризику завжди найдеться!
Edited Date: 2025-08-05 08:26 pm (UTC)

Date: 2025-08-05 11:26 pm (UTC)
From: [personal profile] sassa_nf
Так, але втручання не у вигляді квоти, а у вигляді дотацій, привілеїв, такс брейків. Щоб були бізнеси, які б оцінили виграшною стратегію усім цим заморочуватись.

Date: 2025-08-06 07:29 pm (UTC)
From: [personal profile] ichthuss
Доведена до межі ідея відмова від профайлінгу - це прийом на роботу за допомогою гральних костей. Доведена до межі ідея профайлінгу - це скор, що правильно враховує всі важливі для роботи особливості кандидата (тобто ідеально ранжує кандидатів по придатності до вакансії). Вам яка більше до вподоби?

Date: 2025-08-07 06:16 pm (UTC)
From: [personal profile] ichthuss
А я і не кажу, що це можливо. Це просто мисленнєвий експеримент: до чого ми рухаємося у випадку збільшення або зменшення об'ємів профілювання.

Profile

malyj_gorgan: (Default)
malyj_gorgan

January 2026

S M T W T F S
     1 23
45678910
11121314151617
18192021222324
25262728293031

Page Summary

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 6th, 2026 01:00 pm
Powered by Dreamwidth Studios