malyj_gorgan | help/advice request: датазнавство, шукаю дані

Я тут погодився ближче до кінця весни провести короткий курс з однієї з тем датазнавства, причинно-наслідкового моделювання. Тепер шукаю хороший приклад, на якому це діло добре би ілюструвати. Дані, з якими я працював професійно я, зі зрозумілих причин, використовувати не можу. Хочеться якийсь цікавий публічний датасет.

Ліричний відступ: я продовжую страждати через недосконалість української термінології в датазнавстві. Саме слово "датазнавство" я вживав і вживати буду, хай я буду такий один, це буде моя "Carthago delenda est". Але, холєра, як українською dataset? Так і писатиму, "датасет."..

Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.

Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)

Flat | Top-Level Comments Only

From:

sassa_nf

Kaggle?..

https://www.ons.gov.uk/employmentandlabourmarket/peopleinwork/earningsandworkinghours/datasets/ethnicitypaygapsrawpaygaps

І т.п. у Британії гарні халявні статистики прямо на ons.gov.uk

malyj_gorgan

Нє-нє-нє. Це -- уже порахована статистика. А мені треба вхідні дані, показати студентам, як воно рахується. (Ну як, студентам, це я для якоїсь української онлайнової освітньої платформи зроблю, я так розумію, це буде підвищення кваліфікації для народу)

На Каґґл подивлюся. У них там, правда, зазвичай серйозно оброблені наперед дані, а хотілося необроблених

Що саме рахується?

Вхідні дані по доходах людей у відкритому доступі будуть лише у вигляді агрегатів. А сирі дані там є - time series, data by region, various attributions...

Мені треба вхідні, але анонімізовані.
Агрегатів мені якраз принципово не треба

> А сирі дані там є - time series, data by region, various attributions...
Це не сирі, це результати аналізу. СИрі це: юзер_айді, зарплата, таймстемп, var1, var2, var3...

:) мда... у нашій компанії такі дані навіть анонимізовані не дістати

iamjaph

Будь ласка, посилання на цій курс. Цікаво.

Курс буде, орієнтовно, в червні на платформі https://robotdreams.cc/uk
Коли вони почнуть маркетувати це діло, я тут дам посилання

Дякую.

an_3

Датазнавство круте слово, запозичив і собі, дякую.

S	M	T	W	T	F	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Малий Ґорґан

help/advice request: датазнавство, шукаю дані

help/advice request: датазнавство, шукаю дані

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

January 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags