malyj_gorgan: (Default)
[personal profile] malyj_gorgan
Я тут погодився ближче до кінця весни провести короткий курс з однієї з тем датазнавства, причинно-наслідкового моделювання. Тепер шукаю хороший приклад, на якому це діло добре би ілюструвати. Дані, з якими я працював професійно я, зі зрозумілих причин, використовувати не можу. Хочеться якийсь цікавий публічний датасет.
Ліричний відступ: я продовжую страждати через недосконалість української термінології в датазнавстві. Саме слово "датазнавство" я вживав і вживати буду, хай я буду такий один, це буде моя "Carthago delenda est". Але, холєра, як українською dataset? Так і писатиму, "датасет."..

Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.

Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)

Date: 2024-03-14 05:24 pm (UTC)
From: [personal profile] sassa_nf
Kaggle?..

Date: 2024-03-14 05:30 pm (UTC)
From: [personal profile] sassa_nf
https://www.ons.gov.uk/employmentandlabourmarket/peopleinwork/earningsandworkinghours/datasets/ethnicitypaygapsrawpaygaps

І т.п. у Британії гарні халявні статистики прямо на ons.gov.uk

Date: 2024-03-14 06:19 pm (UTC)
From: [personal profile] sassa_nf
Що саме рахується?

Вхідні дані по доходах людей у відкритому доступі будуть лише у вигляді агрегатів. А сирі дані там є - time series, data by region, various attributions...

Date: 2024-03-14 06:28 pm (UTC)
From: [personal profile] sassa_nf
:) мда... у нашій компанії такі дані навіть анонимізовані не дістати

Date: 2024-04-03 02:47 pm (UTC)
From: [personal profile] iamjaph
Будь ласка, посилання на цій курс. Цікаво.

Date: 2024-04-04 03:14 am (UTC)
From: [personal profile] iamjaph
Дякую.

Date: 2024-03-15 03:56 pm (UTC)
an_3: (Default)
From: [personal profile] an_3
Датазнавство круте слово, запозичив і собі, дякую.

Profile

malyj_gorgan: (Default)
malyj_gorgan

January 2026

S M T W T F S
     1 23
45678910
11121314151617
18192021222324
25262728293031

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 4th, 2026 10:28 am
Powered by Dreamwidth Studios