malyj_gorgan: (Default)
Яху підкинула допис про фаворитизм в сімʼях. Ну, про те, що, коли більше одної дитини, то хтось з дітей є фаворитом ("більше любимо", більше вибачаємо, надаємо перевагу і т. д.), а навіть якщо ні, то діти сприймають, що фаворитами є не вони, а брат/сестра. Але останнє то уже психологічні моменти, в реалі повної гомогенності не буває, так що, якщо у вас, скажімо, двоє дітей, то хтось один з них -- улюбленець. Я читав статтю в HuffPost, яка розповідає про статтю пари вчених з, of all places, Brigham Young University, яка, в свою чергу, є оглядовим мета-аналізом кількох десятків уже справжніх статей на тему. Сподіваюся, ніде з ідеологічних причин сильно не прибрехали, але не впевнений, в якому місці меседж втратив важливу компоненту. Я це до чого -- далі в статті наводяться дані про те, як буття фаворитом впливає на подальшу долю дитини. Кому цікаво, спробуйте вгадати: як відрізняється стан і майбутня доля дітей, які були фаворитами в родині? Щоби не було спойлерів, заховаю решту допису.
Клацніть сюди, коли сформулюєте для себе відповідь і захочете читати далі )
malyj_gorgan: (Default)
Цікаво дивитися, як на теми, про які я тут лементую уже котрий рік, сваряться навіть в міцних і єдиних у своїй трампанутості лавах MAGAмериканців. Багато хто про це написав, але раптом хто не знає. Там у них таке: затрампіст індійського походження Вівек Рамазвами написав очевидну, в принципі, думку, на тему, чого США не вистачає технічно грамотних громадян: культурка не та, цінності не націлені на знання, тому і не навчається публіка нічого хорошого. Я, прямо, не втримаюся і процитую:
American culture has venerated mediocrity over excellence for way too long (at least since the 90s and likely longer). That doesn’t start in college, it starts YOUNG.
A culture that celebrates the prom queen over the math olympiad champ, or the jock over the valedictorian, will not produce the best engineers.
... (далі про то, що американська норма ортогональна до краще вчитися і більше знати) ...
If you grow up aspiring to normalcy, normalcy is what you will achieve. ... “Normalcy” doesn’t cut [today]
...

Перша процитована фраза -- могли би бути мої слова. Друга -- могли би бути мої слова, якби я вирішив стати політиком. За то цього Вівека зараз з усіх боків з гімном мішають правдиві американські затрампісти. При тому, що, типу, на його боці, виступив сам президент Маск. Шкода лише, що у затрампістських розумніших людей типу Вівека з гідністю (за фактом того, де вони знаходяться) тугувато, впевнений, вони прогнуться, поцілують в сраку всіх, до кого губами дотягнуться, ще й, чого доброго, вибачаться.

Таке. Ще у Якова пара цікавих цитат на тему.
malyj_gorgan: (Default)
В розмові з mprotsenko зачепили тему, яка з якоюсь частотою присутня в моєму житті з ... ну, може, не з народження, але точно з шкільних років. (А що ви хочете? Ріс в родині університетських викладачів. Потім передвступні страждання , навчання в різних вузах і країнах, аспірантура, викладання, академічне життя, свої діти... Як тут не думати на такі теми?)

Недавно в Каліфорнії університетам заборонили так звані legacy admissions -- офіційні преференції при вступі у вуз для дітей з родин донорів вузу, працівників вузу і навіть випускників вузу. Що з того вийде -- буде видно не скоро, але ось які очевидні питання зачіпає ідея вступу у вузи:

1. Наскільки, взагалі, реальна система вступу, яка реально оцінює знання абітурієнтів?
2. Наскільки важливо те, що рівень знань при вступі далеко не так добре корелює з рівнем знань при навчанні, а той, в свою чергу -- з рівнем знань і вмінь в реальному житті?
3. Як саме краще влаштувати вищу освіту, щоби було справедливіше, ніж зараз? Ефективніше ніж зараз? За якими критеріями міряємо ефективність?
3а. У вищезгаданому запитанні врахуйте тему падіння якості освіти. Це не старе бурчання, це про інфляцію оцінок -- ващє цікава тема, зараз за ту саму оцінку треба менше треба знати і робити, це тема стара і стабільна, уже кілька десятків років про це трублять, але поки що мало чого досягнули.

P.S. Мої гіпотези, коротко:
1. Реально лише в рамках одного університету шляхом банальних вступних екзаменів, проведених на місці цим університетом. Така система дискримінує тих, хто гірше вміє складати екзамени, плюс, є можливості для локальної корупції, але в цілому ок. Наступний -- система універсального тестування, ті ж мінуси, плюс менша гнучкість універсальних тестів, але хоч якась справедливість. Все інше -- фігня.
2. Якщо рішення є, воно мені невідоме. Це як зі співбесідою на роботу і продуктивністю. Є наявні дані з того ж Гарварду, які показують мінімальну залежність між оцінками при вступі і оцінками в універі.
3. Я думаю за критеріями справедливості стосовно знань і зусиль студентів і досягнення кваліфікації при випуску. Як на мене, єдина система, достатньо справедлива і ефективна -- високий але не надмірно високий поріг необхідних знань при вступі і можливість, навіть не можливість, а заохочення того, щоби відраховувати студентів під час навчання за недостатній рівень. Або, альтернативно, можливість розтягнути навчання за додаткові гроші, які платить студент. Така система заодно допускає в міру справедливий розподіл зовнішнього фінансування через стипендії і знижки.
3а. Імхо, єдине, що може щось поміняти -- періодичне зовнішнє оцінювання з штрафами на організаційному рівні, якщо внутрішні і зовнішні оцінки сильно різняться.
malyj_gorgan: (Default)
Замість епіграфа:
Істину кажу я вам, коли на обкладинці книжки, яка претендує на обґрунтування серйозних речей для загалу, пише "Джон Сміт, ПіЕйчДі", то є бздура, шахрайство і маніпуляції. Malyj Gorgan, Ph.D.


Як я і обіцяв, переглянув Проджект 2025 аби перевірити, як вони поводяться зі статистикою. Якась помітна кількість статистики в графіках там була лише в одному розділі -- про освіту. Тема мені, як ви знаєте, близька, я зрадів і як подивився...
Мгм.
Плюси: Прямого пересмикування і брехні там нема. Мінуси: тому що нема причин пересмикувати і брехати. Вони вставили ті графіки просто так, вони ними нічого не доказують. Тобто, вони просто так, без привʼязки до якихось конкретних ідей, вставили в текст кілька графіків. Ну, типу "про освіту ж буде, хай буде графік". Як в анекдоті про воєнрука, який розповідає про трубу, якою їде танк. Для чого танк? Ну, ми ж на військовій кафедрі. Так от, назад до цього прожекту. Графіки там просто так, без всякої привʼязки до ідей тексту, але до графіків прикріплені посилання на джерело. На пару я клацнув, одне, на диво, попало, а в другому, на сторінці 329 (нагадую, документ тут) джерелом довготривалих трендів тестування з математики вказана сторінка з історією цін сироої нафти. Там правда, написано, "accessed March 17, 2023", але навряд чи сайт eia.gov в 23-му році показував на щось інше, а не на US Energy Information Administration. Словом, там не лише графіки просто так, а і посилання на джерела. А навколо посилань -- довга розповідь про те, як з освітою стагнація, тому треба відмінити обмеження і регуляції, хай сімʼя і штати вирішують. Бо все погане зводиться до rules and red tape, якщо їх забрати, все буде о-го-го. Що не заважає їм в іншому місці розповідати, що урядові ОК придумувати правила стосовно того, як (не) вчити дітей про статеву дисфорію і секс, але що ви хочете, то традиціоналісти, без того, щоби поцілувати в дупу еванґелістів, у них рот рухатися не починає.
Може, звичайно, хтось вважає, що це я такий дурний, очевидних посилань в тексті не бачу. Може, але скорше їх там таки нема. Інакше була би хоча би спроба привʼязати десятки ідей "заборонити" і "відмінити" до графіків. Он, пишуть, в Арізоні довший час були кльові на їх думку правила, так, блін, покажіть ті ж самі графіки з Арізоною на фоні середнього або хоча би кількох інших штатів.

У мене два пояснення. Перше: весь цей прожект писали не піейчді (ну, або не піейчді з дисциплін, де думати треба), а аутсорснули у вигляді серії дипломних робіт для випускників якогось з корумпованіших українських вузів. А ті випускники написали, як вміли: текст переписали з шпаргалки від начальника, а картинки повставляли без різниці, які, аби пилу в очі всім напустити. Друге пояснення: це галімий розводняк і скам. Типу популярного нині різання свиней. Скорше, друге. Публіка подивиться: піечді написав, вумні графіки вставлені, посилання на всякі джерела з dot-gov, значить статистика правдива, урядова... І повірить. А потім почне розповідати, що статистика, мовляв, така брехня...
Повбивавби
malyj_gorgan: (Default)
Знову повернуся до причинно-наслідковості. В попередніх дописах з цим теґом я намагався охопити загальну інтуїцію на тему, а зараз вже конкретика. Це статус кво галузі, як я його розумію, хоча, звичайно, воно все не записано в книжці стандартів, еталонів і аксіом. Тим не менше, я досить-таки твердо переконаний у всьому, що виклав нижче (мінус помарки або приступи дислексії), і якщо ви хочете зі мною поговорити про прикладні причини, спочатку варто погодитися з теорією.

В дописі три секції: формальне визначення причинності, метод подвійного машинного навчання і обговорення з прикладом.

A. Визначення: що таке причинний вплив бінарної дії A на результат Y?
Часто, особливо, коли Y бінарний, може виникнути спокуса визначати причинність як (знак оклику означає заперечення, !A еквівалентно не-A) еквівалент умови "якщо A, то Y, а якщо !A, то !Y". Це буде помилкою! Так визначається не причина, а єдина, необхідна і достатня причина; а такі за межами підручників зустрінеш рідко. Якщо поміркувати над стандартним вжитком, то погодитися можна лише про таке: "ʼA є причиною Yʼ означає, що позитивною є β, міра причинного впливу A на Y", і визначається ця бета так:
(1)   β = P(Y|A) − P(Y|!A) ≡ P(Y|A=1) − P(Y|A=0)

Це визначення правильне, але неповне. Ви помітили, що тут лише дві величини, дія і наслідок? Aле в житті-то є і всякі інші події, тому формула (1) завжди несе в собі імплікацію "everything else being equal", тобто, з двох боків знаку мінус міняється лише А, а все решта залишається незмінним. На жаль, неможливо спостерегти дві події, ідентичну у всьому, крім значення A. Це фундаментальна властивість реальності, поети її формулюють як "не можна двічі увійти в ту саму ріку", а математики як "!A ∩ A = ∅". В датазнавстві такі дані називають counterfactual data, а визначення причинності пишуть не для індивідуальних подій, а для розподілів. Тобто, якщо зовнішнє середовище і передісторія нашої події описуються багатомірним вектором Х з розподілом ρ, то бету пишуть як
(2)   β = P(Y|A, X) − P(Y|!A, X),
маючи на увазі
       β = P(Y|A, ρ(X)) − P(Y|!A, ρ(X)).

Ну і так далі )

На самий кінець додам, що все вищесказане було для бінарних A лише тому, що так простіше і чіткіше все пояснювати. Точно так само працює модель і DML для скалярного A, хоч дискретного, хоч неперервного, хоч обмеженого, хоч ні. Більше того, так само все працює і для багатомірних A, але тоді розмивається концепція існування причинни взагалі, а залишається лише розрахунок багатомірного вектора бета.
malyj_gorgan: (Default)
Відучив дводенний воркшоп-інтенсив з причинно-наслідкового моделювання для української онлайн освітньої платформи robot_dreams. Трохи новий для мене досвід -- останній раз я бона фіде вчив людей нешкільного віку понад двадцять років тому, тай то -- воно було фізика, класика, в рамках визначеної програми, все ясно, що розказувати, а студенти -- звичайні студенти. А тут невідомо хто, може, уже готові професіонали, які можуть більше мене навчити, ніж я їх... хоча поняття не маю, хто були ті люди, про себе зголосився розповісти лише один з двох десятків учасників. Поскаржуся на життя, що часу і зусиль воно зайняло більше, ніж я собі думав: два дні, мало бути по 3 години лекцій, вийшло по 4 з гаком, плюс, приготувати домашнє завдання. Але цікаво. Хочу вірити, що учасникам сподобалося. Організатори сказали (хитро сказали, уже після закінчення), що той факт, що майже всі досиділи до кінця -- це успіх, що іншими разами у них до кінця курсу досиджує меншість.

Так чи інакше, воно позаду. Чи буде вищезгадана платформа якось ділитися матеріалами курсу -- я не знаю, ми з ними домовилися, що все, що я приготував для курсу -- їхня власність, най так і буде, домовленостей треба дотримуватися. Але, як відомо, можна курити під час молитви, а можна молитися під час куріння (хто не знає цього анекдоту -- ви багато втратили, знайдіть і прочитайте), тому, я думаю, що маю повне право ділитися своїми напрацюваннями, які я зробив раніше/деінде, а в курсі використав. Думаю, на кілька дописів стане. Ось, наприклад, візуалізація одного принципу, як робити узагальнення про підмножини. Нехай у вас є якась залежність Y(X), ось така:
multiple_linear
Різними крапочками там зазначені розподіли семплів у цій залежності, а кольори цих крапочок -- якісь конфаундери, aka confounders, aka змішуючі змінні. Вважайте, непрофільні характеристики семплів, які впливають і на ікс, і на ігрек. Якщо ви побудуєте графік Y(X), усереднених за цими непрофільними конфаундерами, то він може виглядати зовсім неподібно, наприклад, десь так:
averages
Так от, не в плані математики, а в плані вдалого/невдалого використання статистичних чи просто частотних аргументів. Воно, звичайно, моя субʼєктивна інтерпретація особистого академічного і професійного досвіду, якогось style guide на цю тему ви не знайдете (якщо знайдете -- покажіть):
1. Розподіл середніх за непрофільними групами без додаткових міркувань не може бути доказом яких завгодно тверджень про залежність Y(X). (Розподіл всередині груп або незалежно від груп -- може, саме так і доказують.)
2. Позиція середнього одної підмножини на розподілі середніх може бути ілюстрацією існування залежності Y(X), якщо вона збігається з напрямком залежності, порахованим без врахування підгруп. Позиція середнього підмножини, яка не попадає в загальний тренд Y(X) нічого на цю тему не ілюструє.
3. Порівняння позицій двох підмножин (XA, YA) і (XB, YB) має сенс, якщо у них близькі або ікси, або ігреки -- таке порівняння дозволяє оцінити різницю між конфаундерами, які визначають множини A і B, але про існування чи значимість саме залежності Y(X) воно не каже нічого.

Десь так :)
malyj_gorgan: (Default)
В розмовах з коментаторами до попереднього допису у мене склалося враження, що часто, коли я не погоджуюся з опонентами, причина не в тому, що ми собі знаємо різні факти, а в тому, що ми по-різному інтерпретуємо ті самі факти з числового простору в простір потяттєвий. Тому оце вирішив показати пару речей, очевидних, якщо ти регулярно працюєш з статистичними даними, і далеко не таких очевидних, якщо ти з ними стикаєшся лише в опрацьованому форматі.
Насамперед дисклеймер: я не наполягаю, що враження, яке у мене склалося про когось з моїх співрозмовників, вірне. Це не персоніфіковане пояснення, а абстрактна мінілекція, дуже прошу не сприймати нічого особисто. Дві маленькі ілюстрації сценаріїв, де я не раз спостерігав нерозуміння представниками всіх можливих і неможливих професій.

Ілюстрація перша: середнє vs частотне. Часто люди з підозрою ставляться до ситуацій, коли помітна більшість вимірів виявляється більшою (або меншою), ніж середнє значення. Як жартував мій улюблений радіоавтор про своє уявне містечко Лейк Вобегон, там "all the children are above average". Так от, всі діти вище середнього бути не можуть, але значна більшість - запросто. Наприклад, якщо у нас якась величина, хоч оцінка з математики, хоч кількість дрінків на місяць, хоч продажі за рік мають ось такий, цілком реальний, розподіл:
distr074
то три з чотирьох учасників цього розподілу будуть мати значення вище середнього! А якщо взяти не менш реальний розподіл, дзеркально відбитий навколо вертикальної вісі, то 3/4 учасників будуть мати значення нижче середнього. І це ще компактний розподіл, між нулем і одиницею, а якщо значення не мають обмеження, то асиметрія може асимптотично наближатися до ста відсотків.

Ілюстрація друга: кореляції. Кореляція не означає очевидної лінійної залежності. Більшість всяких кореляцій в більшості галузей людської діяльності, які гордо називають статистично значними кореляціями, вони можуть на перший погляд виглядати як повна відсутність залежності. Що в медицині, що в бізнесі, що в соціології всякій... Коли ми чуємо, що А корелює з Б, але знаємо приклади існування "А and not Б" або "Б and not А", навіть, приклади на рівні субдемографій, то є спокуса сказати, що ні, ніякої кореляції нема. Боріться з цією спокусою! Єдиним способом показати, що кореляції нема, є поміряти кореляцію і показати, що її нема. Тому що розбіжності.... Ну ось, подивіться наприклад на цей розподіл з семидесяти пʼяти пар (x, y):
corr042_013
Це дані, які досить добре корелюють. Коефіцієнт Пірсона -- 42%, в бізнесі постійно таке оголошують успіхом. Коефіцієнт детермінації (R-квадрат) 18%, не фонтан... але, повірте, у світі купа людей, які 4-5% оголошують нормальною залежністю, особливо в обчисленнях причинності, там більше 10% -- за щастя. І це цілком нормально, якщо ви рахуєте не ML передбачення, а модель причинності. Зокрема, при даних такого ж рівня "шумності", як оце на картинці, імовірність помилки першого роду у спробі поміряти середнє значення ігрека для 75 точок на симетричних і рівномірних іксах з точністю вимірювання (precision) до половини справжнього середнього буде десь 25-30%. Це ще називають p-value. Це багато, така статистика нічого не доказує... Але якщо взяти не 75 точок, а 150, то p-value буде вже 12%, забагато в серйозній статистиці, але уже на межі для найгрубших оцінок. А якщо кількість самплів збільшити до 750, то p-value буде менше півпроцента, всі щасливі. Точність вимірювання замала? На десяти тисячах точок ми матимемо p-value один відсоток для точності вимірювання 0.1 від правди. Це я все до чого: позитивна кореляція може бути слабкою, але для достатньої кількості семплів вона буде статистично важливою. Всі вищенаведені виміри взяті не зі стелі, а перераховані ось цими от руками.

Бонус до другої ілюстрації. Взагалі, вміння розуміти кореляції -- дуже корисне вміння. Дуже раджу вбити 5-10 хвилин часу і погратися в цікавущу гру: "угадай кореляцію". Мені вона у свій час серйозно допомогла виробити певну інтуїцію.
malyj_gorgan: (Default)
Причинно-наслідкова або ж каузальна дедукція. Це я так перекладаю поняття causal inference. Оскільки воно все туманно, давайте, краще визначу про що мова.
Отже, нехай у нас є якась числова міра реальності Y, яку можна застосувати до одного семпла. Місячна виручка за морозиво марки ʼКурдупликʼ в генделиках Галичини, оцінка на тестуванні з математики у студента, ефективність їзди в літрах на 100 км на автомобіль і т. п. Далі, нехай, у нас є якась дія A, яка може статися або не статися перед тим, як ми мірятимемо наш Y. Скажімо, для трьох вищевказаних прикладів діями можуть бути "поставили паперову фігурку Курдуплика на вході в генделик", "прослухали рекомендовану лекцію ʼМатематика - це стильно, модно, маладьожноʼ", "Поставили під вітрове скло іконку Святого Хоми". Важливо, що в нашій популяції (популяція -- це сукупність всіх генделиків/студентів/машин, які ми розглядаємо) у деяких членів за час, поки їх спостерігали, ця дія сталася, а у решти -- не сталася. Ще ви, може, звернули увагу, що я назвав лише бінарні дії, A або відбулося або ні, А=0 або 1, тоді як Y найчастіше має якийсь відносно неперервний інтервал (можна описати дійсним або цілим числом). (Насправді, для небінарної дії все виводиться і імплементується практично так само, але я фокусуватимуся саме на бінарних А, тим більше, що в реальних задачах воно трапляється частіше, а мінуси, які я буду критикувати в кінці курсу, там очевидніші.)

Повернемося до задачі. Максимально загальне її формулювання дуже туманне: знайти, як бінарна дія (action або treatment) А впливає на кількісний наслідок (outcome) Y:
dag0
Можна прискіпатися, чого це ми впевнені, що А є однією з причин Y, а не навпаки, але не проблема: зворотнього впливу бути не може, бо Y вимірюється після того, як А відбулося або не відбулося. Інша справа, що від настільки загального формулювання толку мало, бо що значить "як впливає"?

Найпершим ділом, визначимо оце "як". Як я і обіцяв у попередньому дописі, ми зробимо ось таку штуку. Ми уявимо собі, що можемо спостерегти і ситуацію, коли дії не було, і ситуацію, коли дія була. Давайте, для зручності, відтепер мислити в термінах першого з придуманих прикладів, про генделики, морозиво і курдупликів. Насправді, це одна з найпопулярніших задач в бізнесі: маркетологи придумали спосіб підняти продажі, здизайнували фігурку, друкували-вирізали-клеїли, розіслали в деякі генделики, десь їх навіть встигли встановили, і от тепер тепер начальство хоче знати, чи був від цього толк. Словом, чи не найтиповіша бізнес-задача в цьому світі.

Повертаємося до формулювань. Нехай індекс i позначає номер генделика нашому списку, Ai позначає факт встановлення там фігурки Курдуплика, а Yi позначає місячні продажі там відповідного морозива. Так от, ми визначимо казуальний вплив дії на результат βi через два можливі сценарії, в одному з яких Ai дорівнює нулю, а в іншому -- одиниці.
(1)   Yi[якщо Ai=1] = Yi[якщо Ai=0] + βi.
(N.B. для тих, хто не звик до статей і книжок з математики/фізики: цифра (1) перед попередньою формулою -- це її номер, щоби потім не казати "а памʼятаєте, я колись писав формулу про таке–то", а посилатися на неї як "формула номер один".)

В цьому місці ми зробили один дуже хитрий логічний хід: ми допустили, що, принаймні в уяві, можемо порівнювати два зовсім різні сценарії, в одному з яких сталося одне, а в другому -- друге, тоді як в реалі такого не буває, в кожному з генделиків ми мали або сценарій Ai=0, або Ai=1, ніколи не обидва зразу. (Насправді, я ще не торкався важливого моменту, коли відбувається наша дія; поки що, для простоти, уявімо собі, що фігурки Курдупликів ставили або не ставили виключно 31 січня і ніколи більше, а продажі міряли в лютому. (Щось я зловживаю зауваженнями в дужках, але такий з мене непродуманий писака.)) Можливість, хай віртуально, порівнювати два різних сценарії, хоча спостерегти можемо лише один, нічим не гарантована. Але таким чином ми обходимо кілька дуже слизьких моментів і використовуємо нашу богорівну уяву, щоби замінити строгі визначення інтуіцією. А що на такому допущенні ґрунтується вся теорія імовірності сотоваріщі, то чим ми гірші? Для неофітів додам, що повний набір отаких справжніх і уявно можливих сценаріїв називається "статистичний ансамбль".

Оскільки, як я оце розпинався, ми ніколи не можемо спостерегти продажі для двох різних сценаріїв, найпростіше допустити, що це β для всіх генделиків однакове. А якщо неоднакове, то тупо оголосити, що ми шукаємо середнє, найчастіше середнього достатньо. Інтуітивно найочевиднішим сподобом оцінити наше β є просто порівняти середні продажі mean(Yi) для всіх генделиків, де Ai=1, з середнім для всіх, де Ai=0. То, що саме цей метод є інтуітивно найочевиднішим, це я вам з досвіду кажу. Не заглядаючи під кат, ви як думаєте, це нормальний підхід? )

А що саме я маю на увазі і що там далі -- в наступному випуску :)

P.S. До теми конфаундерів: нагадую!
malyj_gorgan: (Default)
Почну потрохи писати лекцію з причинності і всякого такого. Наперед дякую за коментарі і запитання -- воно мені допоможе... а вас, можливо, зацікавить. Тих же, хто все це прекрасно знає і без мене, і краще за мене (боюся, таких тут більшість) перепрошую за зайвий шум. :)

Вступ


Перше, ніж повести мови про каузальність і всяке таке, давайте подивимося на кілька базових понять статистики і теорії імовірності. Вони не викарбувані в граніті, різні джерела вживають речі трохи по–різному, тому заодно просто звіримо термінологію. Дисклеймер: це не курс статистики, а розмова "на хлопський розум", тому деякі речі я навмисне спрощуватиму. Зате важливі поняття даватиму ще і англійською.

Імовірність (Probability). Одне з найбазовіших понять в нашому житті, і при цьому до смішного неінтуітивне. Хоча найпростіший випадок ще Ок: якщо ви знаєте, що може статися кілька подій, якщо уявити безліч світів, де ці події сталися, то ймовіність події A буде писатися P(A) і дорівнюватиме частці всіх світів, де сталася подія A, а не якісь альтернативні події. Аби не сперечатися на тему чи хоч щось станеться, давайте напишу це все контексті причинно-наслідковості: у кожної дії (причини), є якісь можливі насліди A, B, C і т. д., і кожен з них має свою імовірність, так що сума всіх імовірностей
P(A) + P(B) + P(A) + ... = 1. Причинно насліддковий звʼязок можна описати ось так:
probability


Правдоподібність (Likelihood). Різниця з імовірністю в тому, що ми починаємо з якогось спостереження, тобто, ми бачимо наслідок, який може статися в результаті кількох різних причин. Нехай, у нас знову є безліч світів, у яких у всіх стався наш наслідок. Так от, правдоподібність події A, позначається L(A), -- це частка цеї безлічі світів, у якій причиною цього насліду була саме дія A:
likelihood

Давайте проілюструємо це на прикладі. Чи не найкласичнішим засобом ілюстрацій після монет є гральні кубики, а.к.а. кості. Нехай у нас є три чесних кубики (чесних -- це таких, де сторони рівноімовірні, визначення виходить рекурсивним, але вдаватися в деталі облом), і ми граємо у гру, де ми міряєму суму, яка випала на цих трьох кубиках. Розподіл імовірностей для усіх можливих сум можна побачити нижче. Імовірність викинути суму, ну, наприклад, 14, буде P(14) = 15/216 ≅ 7%, це частка комбінацій, які додаються до чотирнадцяти , з усіх можливих комбінацій, ось картинка:
a05
З імовірністю чотирнадцяти все ясно. А для того, щоби ввести правдоподібність, треба задати додаткове запитання. Нехай ви знаєте, що випала сума 14, тоді додатковим запитанням буде "а яка правдоподібність того, що на всіх трьох кубиках були різні цифри?" (Відповідь -- 40%, звідки вона взялася, сподіваюся, ви побачите самі.) Або ще: знаючи, що сума трьох кубиків різних кольорів, жовтого, білого і сірого, складає 14, скажіть, з якою імовірністю жовтий кубик показує чотири? (Порахуйте це самі, в якості домашнього завдання.)

Одною з цілей вищенаписаного було показати вам, що навіть в найпростіших випадках, коли ми знаємо, що діється, ми не можемо точно передбачити, що в результаті станеться, лише надати якісь імовірності. І навпаки, навіть коли ми якось поміряли, що в результаті сталося, ми не обовʼязково знаємо, як воно прийшло до такого результату, і можемо лише оцінити правдоподібність різних комбінацій причин. Весь цей цурес і неконкретика називаються "стохастичність".

Причинно-наслідковість / каузальність (Causality) стосується ближчого до реальності стану речей, а цей стан навіть в найпростіших прикладах є набагато складнішим, ніж перші дві картинки зі стрілочками. Почну з кінця: по-перше, у всякій життєвій ситуації наслідок рідко є чимось однозначним, а найчастіше є якийсь багатомірний простір наслідків. Який ми любимо проектувати на одну або більше лінійних числових метрик, як то "продажі товару", "сума крапочок на костях", "добре/погано", "оцінка на тесті" і ще мільйон інших. Найчастіше люблять вибрати якусь одну метрику ... що часто-густо веде до підміни усього багатства наслідків одною кількісною величиною, через що стається сама лише шкода і дуже небагато користі, бо ця одна метрика і надмірно спрощує, і неясно, чи ми правильно розуміємо механізм звʼязку цеї метрики з власне подіями. (Див. помилка Макнамари і закон Ґудгарта) По-друге, на відміну від задачок на ідеальні шестигранні кості або чесні монетки, ми майже ніколи точно не знаємо, як саме та чи інша причина впливає на наш наслідок. Власне, встановлення цього механізму і є основною задачею каузального моделювання. По–третє, крім відомих причин A, B, C з різними правдоподібностями і механізмами впливу, завжди є ще і невідомі причини. Ну і, нарешті, причини між собою ні разу не незалежні, тому, намагаючись зі спостережень встановити, як A впливає на Y, треба памʼятати, що розподіли спостережених A і Y дуже сильно розмиті всякими невідомими нам подіями і явищами, а, по–друге, що частина подій є конфаундерами, або сплутуючими факторами, такими, які одночасно впливають на A і Y, вносячи байаси і іншу статистични не-незалежність в наші спостереження.
Базова картинка причинно наслідкового, наприклад, ось:
a.03
Типова задача буде, ну, наприклад, така: нехай A -- якийсь педагогічний прийом на заняттях з англійської мови. Ну, наприклад, заміна одного із програмних творів на уроках англійської зі звичайного твору на комікс. А Y -- стандартизований тест з англійської, який учні пишуть в кінці року. Відомі причини -- всякі інші оцінки і кількості годин учнів перед тестом. Невідомі причини -- все решта, від особи вчителя до того, що того року в телевізорі показують.

Як це робиться -- я буду писати в наступних розділах, а поки що, для лінивих, розкажу основну ідею і висновок:

  1. Основна ідея: першим ділом в таких задачах доводиться допускати функціональну форму механізму залежності. Найчастіше, вибирають лінійну залежність:
    Y|A=1 = Y| A=0 + β,
    де A-нуль відповідає звичайному твору, а одиниця -- коміксу... або навпаки, суть в тому, що ми перетворюємо причину на бінарну величину (можна небінарну, підхід аналогічний).

  2. Тоді, використовуючи всякі наближення і допущення, можна порахувати значення β, його і називають причинним впливом AY

  3. Ця бета -- вона завжди і тільки описує середній ефект

  4. Будь-які спроби прикинутися, ніби ви таким статистичним способом можете порахувати індивідуальний вплив, тобто, як A вплине на Y для одного конкретного учня (як причина вплине на наслідок в конкретному семплі), майже завжди -- відверта брехня і шахрайство.

malyj_gorgan: (Default)
Я тут погодився ближче до кінця весни провести короткий курс з однієї з тем датазнавства, причинно-наслідкового моделювання. Тепер шукаю хороший приклад, на якому це діло добре би ілюструвати. Дані, з якими я працював професійно я, зі зрозумілих причин, використовувати не можу. Хочеться якийсь цікавий публічний датасет.
Ліричний відступ: я продовжую страждати через недосконалість української термінології в датазнавстві. Саме слово "датазнавство" я вживав і вживати буду, хай я буду такий один, це буде моя "Carthago delenda est". Але, холєра, як українською dataset? Так і писатиму, "датасет."..

Словом, не порадите, де би таке взяти? В ідеалі, це повинна бути якась велика таблиця даних, на десятки тисяч, а краще більше, рядків, з ось такими вимогами:
1. має бути один "результат", який (а) міряють (б) кількісно для кожного семпла. Ну, там, зарплата, виплата, оцінка з тесту, айкʼю індекс і т. п.
2. має бути більше двох-трьох причинних змінних, які до цього результату призводять. Вони можуть бути числовими, можуть бінарними, можна категорійними, але на кілька класів, не більше, бо потім все-одно в числа переводити
3. Одна зі змінних має бути бінарною, ми будемо рахувати вплив цієї оної змінної.

Хорошим прикладом була би, наприклад, табличка базової статистики людей, яких наймають на роботу, з усякими базовими змінними: професія (галузь), вік, стать, попередня зарплатня, освіта, роки досвіду, раса, регіон, ще щось, ну і, нарешті, зарплатня, яку цій людині запропонували при наймі. Роками точиться суперечка, чи дискримінують роботодавці *сьогодні*, допустімо, жінок чи негрів чи ще когось за їхню расу чи стать. Одні кажуть, що є дискримінація, інші кажуть, що давно нема. Це би був ідеальний спосіб ізолювати саме вплив потрібного фактору. Словом, гей, активісти, якщо у вас є тверде переконння на цю тему і набір даних, яким ви це переконання пояснюєте, покажіть мені ті дані! Буде вам прохвесійний казуальний аналіз з чесною відповіддю, можливість закрити якусь одну тему.
Бо, блін, хоч би щось знайти.... Спеціалісти зі статистики, які ці всі методи придумують, переконують себе, що воно працює через симуляцію: симулювали вхідні дані, застосували свій метод, все вийшло, і ходять щасливі, хваляться/публікуються. Але як слушно казав один мій колєґа ще з академічних часів, коли я займався діагностичними зображеннями, симуляція -- це як мастурбація, you know that the results will come to be but have no idea what would happen if you have to do it in real life :)
malyj_gorgan: (Default)
Давненько нічо не було під теґом "шкільне життя", але то лише тому, що мене всякі професійні проблеми відволікали. Аби ви часом не подумали, що тут зі школами все раптом стало добре, підкину пару прикладів. А то є у нас тенденція (у мене теж, часом) вважати, що, звичайно бувають перегиби, але ан мас ми рухаємося в правильному напрямку, а перегиби -- то тимчасові недоліки, а так каліфорнійська школа -- нічо так, а всі воук-страшилки -- то виключно страшилки. Отже, старша дитина почала вивчати курс географії і світової культури.
Епізод 1. Вчитель розповідає дітям, про що буде курс. "Ми будемо вчити про те, як люди різних культур прибували в Штати, які у них тут були культурні і економічні виклики, звʼязані з такою значною зміною в їх житті" Моя дитина: "О, а ми будемо говорити про еміґрацію зі Східної Європи і виклики, звʼязані зі зміною з пост-комуністичних суспільств?" Вчитель: "Ні, звичайно, ні. У нас же ethnic studies (тому про білих не будемо)."
Епізод 2 Сьогодні будемо вчити про боротьбу з расизмом. Діти, напишіть про визначного борця з расизмом Каньє Веста, як він виступає за все хороше проти всього поганого. Моя дитина, здається, не втрималася і таки написала щось, вставивши слова "... how ironic that Kanye West, a known anti-racist activist and antisemite..." Чекаю, що з того вийде :)

І так у них все. 100% почутого з найрізноманітніших джерел про місцеву школу підтверджує думку, що природньою реакцією нормальної недурної людини на антирасистьке виховання в тутешній школі є... скажімо так, щось подібне до того, якою була природня реакція нормальної недурної людини на виховання в пізньорадянській школі (підказка: ця реакція не була підсиленням любові і поваги до радянської влади).
malyj_gorgan: (Default)
А ось ще цікава фраза -- говорив по скайпу з мамою про всякі аспекти return-to-office руху в США, висловлювався про деяку однаковість начальственних замашок по всьому світі. Мама згадала, що вчила студентів такої фрази. Перекладайте самі, мені подобається не лише зміст, а і звучання:

Honores mutant mores, sed raro in meliores.
malyj_gorgan: (Default)
Передостання історія, де мені знадобилося, щоби мене носом ткнули в очевидне, вкотре нагадала, що ми часом не бачимо тривіальних речей. Вміння знайти просте і гарне рішення складної задачі -- це особливий скіл, напевне, половина олімпіадних і "Квантівських" всяких штучок колись давно була саме про це. Може, не половина, але чверть точно. Я ніколи не вмів легко знаходити красиві прості рішення. Але не я один, як показує досвід, вперше побачити щось просте -- нелегко. Причому, "прості рішення складних задач" -- це неправильно я сказав, бо, як тільки складне рішення стає відомим, воно стає очевидним, і задачка переходить в розряд тривіальних. Як ото об'єм корони поміряти до і після Архімеда... Словом, два приклади простих задач з очевидними розв'язками, які до якогось моменту були не очевидними.

Перший -- рентгенівська анґіографія. Себто, отримання картинок кров'яних судин з допомогою ренгтенівських променів (потім аналогічно робили з МРТ і ультразвуком). Кров трохи краще поглинає не надто високоенергетичні рентгенівські промені, ніж сусідні тканини, але цього не досить, на картинках видно не дуже, плюс, на нижких енергіях там розсіяння. Придумали колоти спеціальні контрастні агенти -- речовини з більшим перерізом розсіяння, щось важче, там, ґадоліній, або, принаймні йод. Стало краще, але не дуже, бо фон все-одно майже все забиває. І в якийсь момент один медичний фізик придумав очевидний хід: зробити ДВІ знимки: до того, як людині вкололи контраст і одразу після того, поки людина не встигла порухатися. І відняти першу знимку від другої, отримавши красиві картинки власне судин, з усіма їх потовщеннями, розривами і корками... Очевидно ж. Елементарно! Але хтось це придумав перший раз, написав статтю, отримав патент. Цей патент був другий за кількістю грошей, які він приніс універу з 1980 до 2005, далі я не слідкував. Отака проста-простецька думка: фото раз, фото два, віднімаємо -- вуаля, перед нами те, чим два фото відрізняється. Пишаюся, що я працював під началом цього чоловіка пару років дві декади тому.

Другий приклад -- з нашої практики в Берклійській Нац. Лабораторії. Був у нас великий проект, в якому треба було отримати ядерну картинку (SPECT -- single photon emission computed tomogrphy) зразка, у формі вертикальної труби 15 см шириною і півметра висотою. Прилад для міряння людей, які лежать горизонтально на спеціальному столі, але ми придумали, як, замість крутити кільце (gantry) сканера навколо зразка ми зупиняємо сканер в одному хитрому положенні, а крутиться сам зразок в полі зору детекторів. І ще, важлива деталь: нам треба було отримувати картинку, вірніше, послідовність з 60 картинок, синхронізованих з крутінням зразка, кожних 8 хвилин протягом майже двох діб. Півтори доби мінімум. Крутіння зразка і всяке інше (там ще було качання насосом через нього грунтових вод, бо проект з гідрології і біогеохімії) контролював скрипт на Лабв'ю з лаптопчика, а от сканер доводилося запускати вручну. Він був спеціально так зроблений -- концепція, що запускатися така штука може лише живим технологом була закладена в саму систему. Це ж медицина, діагностика, скандер думає, що там всередині в ньому живий пацієнт, якого не приведи господь вдарить, притисне, чи забуде. Тому все може запускатися лише наживо, клацанням по кнопочках їхнього ЮаЙ. Ніяку програму, де можна написати скрипт, туди не вставиш -- закрита архітектура, компутер жорстко інтегрований з рештою всього, FDA схвалює лише все разом, тому комп все той самий, старий, на нього нічого нового записати не можна в принципі (Зате ще в 2020-му я останній раз реально щось робив на компі 1998 року з живою OS/2... ех, кайф!) Вже що ми не придумували... Перший великий експеримент довелося робити наживо, ми з колегами втрьох чергувалися і з ранку п'ятниці до полудня суботи реально що вісім хвилин проклацували запуск протоколу считки даних. Задовбалися -- не то слово. Але альтернатив придумати не могли -- ну, не піддається система втручанню, принаймні, щоби її не ламати, а ламати не можна, бо на тому сканері ще людей, кроликів і щурів треба міряти... Почали шукати інші сканери. Я обдзвонив все Західне узбережжя. Один варіант був -- сканер для коней: кастом-геометрія (бо коні стоять), але там роздільна здатність була не та. Плюс ціна пару сот тисяч, а у нас максимум тисяч тридцять на це можна було бюджету виділити. Нарешті, знайшов варіант, якогось українця в другому поколінні, який в околицях Лос Анжелеса тортував вживаною медтехнікою. Полетіли туди з начальником і ще одним інженером дивитися. Робочий прилад тої ж моделі у них стояв на лізинґу в якомусь госпіталі. Виробництво року восьмидесятого, як не раніше, древня панель оператора, я таких клавіш з часів студентської молодості і комп'ютерного кабінету ЄС-100 не бачив. Архітектура так само закрита, але оскільки 1980-й рік, то вся операція без мишки. Тут один зі співробітників сказав: о, з цим ми впораємося, можна зробити роботизовану руку, яка натискатиме правильні кнопки, всього кілька тисяч, помістимо в бюджет... Далі я на нього дивлюся, як на дурного: а якщо робити робо-руку, то нафіга нам купувати додатковий сканер, сканер у нас уже є! (Я тоді ще пам'ятав, як навігувати між віндовсівськими компонентами без мишки) Зраділи, покупку відмінили, повернулися в лабораторію, на наступному ж засіданні говоримо про нашу геніальну ідею, після чого ще один наш колега, який не їздив, як почув про це, подивився на нас як на дурних: а нашо робити роборуку, якщо можна просто перехопити сигнал з клавіатури
Словом, замість сканера за $30К або роборуки за кілька тисяч (навіть не знаю, скільки), купили PS/2 keyboard spoofer за двадцятку і все запустили з того ж ЛабВ'ю скрипта.
Очевидно, банально, тривіально. Але, якби хтось не подумав про це вчасно, мого би бути набагато складніше, дорожче і гірше.

Питання: а скільки навколо нас ще отаких задач, які ми вважаємо складними лише тому, що хтось перший не придумав тривіально просте рішення?
malyj_gorgan: (Default)
У вас є магазин з мільйоном (грубо кажучи, насправді, більше) найменувань товарів. Всіх найрізноманітніших видів. І ось ви взяли, і за кожним найменуванням порахували продажі протягом двох тридцятиденних періодів один за одним: X0 і X1. Розподіл кожного з іксів -- приблизнно power-law, p ~ x-α. І ото вирішив я побудувати гістограму того, що називається "lift" -- відносна зміна продаж від місяця до місяця:
(X1 - X0) / (X0 + ε)
Епсилон там для того, аби не було ділення на нуль. (Десь 20% кожного з іксів -- нулі, але пари, де нулями є і X0, і X1, в популяцію не входять). Гістограма, як ви розумієте, тягнеться від -1 до безмежної асимптоти. І ось що я спостерігаю, і що мені абсолютно незрозуміло, звідки таке береться:

  1. Гістограма очікувано має максимума в нулі, плюс, великий пік в мінус одиниці, це ясно

  2. Але, крім того, є дуже чітко проявлені максимуми в 1, 2, 3, 4, ...

  3. Більше того, менш чітко проявлені, але видимі максимуми в 0.5, 1.5, 2.5 ...

  4. То було з позитивного боку, а зліва від нуля там є конкретні піки такі на 1/2, 2/3, 3/4, 4/5...


Що це, блін, таке? Моє єстество протестує проти того, що це може бути якийсь бізнесовий ефект. Це щось числове, чиста арифметика. З корінням або в статистиці, або в програмуванні (тобто, як воно все в таблички записується) Але що?
Графіків не покажу, бо, то не можна, таємниця слідства, вотетовотвсьо.

UPDATE: Сам дотумкав. Ефект, насправді, бізнесовий, а я просто не подумав. Ці ікси -- місячні продажі. Розподіл продаж щомісяця має купу локальних максимумів в різних "круглих" числах: пропорційних 10, особливо 20, сотня, півтораста... Цього виявилося достатньо, щоби сумарний розподіл відносноі різниці проріс максимумами в особливо раціональних точках

UPDATE 2: Я тормоз. Круглі числа ні при чому, це банальний ефект постійної ціни на одиницю товару, тому для невеликих кількостей проданих юнітів що дельта, що Х0 в знаменнику, будуть пропорційними цілим числам. Дякую [personal profile] ichthuss за відповідь.
malyj_gorgan: (Default)
Вибачте, якщо щось таке колись писав, і виглядає, ніби повторююся. Просто, вкотре спостеріг досить масове нерозуміння того, що таке датазнавство. Нерозуміння, з якого ростуть ноги нецільового і неправильного використання датазнавців компаніями, коли наймають такого, в першу чергу, тому що модно, а потім не знають, що з ним робити.
Отже всяка робота, де, між іншим, генеруються макроскопічно великі кількості даних (без останнього про датазнавців говорити просто нема сенсу), має три підходи мотивацій для прийняття рішень

1. Спеціалісти галузі. Domain-driven approach. Тут навіть не точка зору, а ціла пляма бо тут буде і точка зору ринку, і технології, і маркетерів і т. п. Але, якщо максимально грубо, то основною мотивациєю для цих людей є "якого результату вони хочуть досягнути", все інше -- вторинне.
2. Інженери: оптимізують процес. Інженер працює між існуючими даними, початковим станом, і бажаним результатом, шукаючи найкоротший (найбезпечніший, найдешевший, найгарніший) шлях від першого до другого.
3. Датазнавці: працюють від даних. Як ці дані добуваються, якого результату хотіли досягнути -- цікаво, але вторинно, основа основ -- факти про те, що ми знаємо тут і зараз.

Згадується запханий мені в голову вчителькою російської літератури віршик: "отєчєство славлю, котороє єсть, но тріжди -- котороє будєт. Так от, "котороє єсть" -- це data science, "котороє будєт" –– domain-based approach, a шлях від одного до другого -- engineering.

За моїми спостереженнями, в багатьох компаніях, особливо досить великих, воно нікому нафіг не всралося -- знати, що ж у нас насправді стається. У них є план на майбутнє, є інженери, які це майбутнє збудують, а якщо реалії сьогоднення в цю структуру не вписуються, тим гірше для реалій, потім знайдемо, на кого звалити вину за невиконаний план. Ми ще рік тому запланували саме так, начальство підписалося, ти що, хочеш сказати, що начальство помилялося?!? Такі компанії часом наймають датазнавців, бо це стильно-модно-маладьожно, але з часом або роблять з них інженерів, або роблять з них пустобрехів, або виганяють їх нафіг.
malyj_gorgan: (Default)
Винесу, трохи розширивши, з коментів з підзамочної дискусії про одну приватну школу (high-school).
Розмова про те, що школа, зустрічаючи своїх вступників, фокусується виключно на тому, як там все кльово зі спортом, музикою, спортом, громадським життям, і ще раз спортом, повністю виводячи з фокусу академічні моменти.

1. А яка частка тих $25К, які ця школа змушує платити щороку, іде на всю цю спортивну і суспільнодіяльну фігню? (Імплікація 1: може, краще більше вчителів і більше їм платити? Імплікація 2: чого б то родини дітей, які прийшли туди грати в спорти і виступати на великих сценах, не платити за це окремо?)

2. Зауваження з приводу оптики (ака, враження від спостереження) американської освіти: тут уже котре десятиліття бідкаються, ой, чому це тутешні дітоньки не хочуть іти в STEM. Не розуміють, чому мало кому цікаво вчити природничі науки, математику і все таке. Скоро вийдемо на рівень, коли половина молоді здобуває вищу освіту, а інженерів і вчених все так само доводиться імпортувати, при цьому навколо повно клерків і продавців з дипломами бакалаврів різних незрозумілих дисциплін і непідйомним боргом за навчання. Чому, о чому, діти не хочуть в STEM?
Просте спостереження: ще в школі (в універах теж, але не аж настільки печально) діти бачать купу ресурсів вбуханих в спортивні споруди, події, пріорітизації. Якщо ти шкільний атлет, то твої the power and the glory for ever and ever and ever (c)... Якщо не атлет і не чірлідер, то тебе буквально заганяють бути фаном і вболівальником. Ще ті ж самі діти бачать іншу купу ресурсів, вбуханих в мистецтво: зали, інструменти, події, виступи, поїздки, слава, мішура, нагороди. Шкільні коучі і керівники хорів і ансамблів -- це круто, це класно, це любов і повага.
І от вся ця оптика стається на фоні пари середньої обшарпаності кабінетів science'a, зовсім ніякого кабінету математики, загнаних і нелюбимих вчителів цих предметів. Про самі предмети вголос згадують лише зрідка, і переважно у форматі "з математикою було важче, але прорвався і став класним баскетболістом" (а математика -- шо математика, рахунок вести вміє, та й добре. ) І в таких умовах когось дивує, що діти не хочуть іти в STEM? І не захочуть, як їх туди не закликай. Ще в просто програмування, при наявності всяких роботікс і кодінг клубів, хтось часом іде, та й то недостатньо.
Я ще розумію, якби в суспільстві було недостатньо атлетів, акторів, митців і спортивних вболівальників. Але ж, ніби, кажуть, що не вистачає інженерів і спеціалістів, які вміють в хімію, фізику і іншу біологію. Так якого хріна будувати новий спортзал і театр, в придачу до існуючих двох спортзалів і одного театру, не маючи нормальної бібліотеки і з помітно старими кабінетами фізики з благеньким кабінетом фізики? Якого хріна як з писаними торбами носитися з тренерами і керівниками театрів і музичних колективів, запихаючи кудись на останні ряди вчителів математики і природничих наук?

Основна маса дітей, особливо ранні підлітки, в першу (і другу, і третю) чергу ведеться на статус, на sense of cool, на ту саму "оптику". Якщо вірити дослідженням про вплив соцмереж, то в критичному віці 10-15 років, особливо це справедливо для дівчаток (у хлопців трохи інакше і трохи зміщено в часі). Так блін, замість придумувати якісь піар програми мінімальної ефективності для того, щоби більше дівчаток звідкись взяла в собі бажання піти в науку, просто, створіть цю оптику насправді. Хай вболівання за футбольну команду чи виступ самодіяльності буде проходити за залишковим принципом в плані ресурсів і уваги. Хіба це не очевидно?
malyj_gorgan: (Default)
Навздогін до попереднього посту, про окопний РЕБ. Знайшов людину, яка продає для ЗСУ, зараз утрясаємо деталі. (Дякую тим з вас, хто запропонував трохи долучитися, я пам'ятаю і напишу, коли знатиму точно ціну -- воно трохи перевищує мій місячний бюджет, а у мене тим часом ще й інші витрати заплановані, хай і дрібні.) Кому цікаво, поділюся з вами тим, що сам взнав, що це таке, з чим його їдять і т. п. Ну і, якщо хто захоче ще такого докупити, дам (в приваті) координати, де взяти, бо штука корисна.

Словом, станція радіоелектронної боротьби (РЕБ) -- це така антена, яка дає пульс на частотах, якими спілкуються з базою основні дрони. Частот кілька діапазонів, від 900 МГц до п'яти з гаком ГГц, точно не пам'ятаю. Захист, в термінах спеціалістів, "псевдокупол"(насправді, українською не "купол" а "баня", але що досі багато хто не достатньо комфортно володіє лексикою, щоби не сміятися з "бляхи" і "лазні" і неправилъно вживати слова "шар" і "луна", то залишимо псевдорусизм). ТОбто, це не щось, що ви поставили коло себе, клацнули вимикачем, і всьо, дрони не прилетять, а щось трохи неоднозначніше. Мені прислали огляд основних помилок і місконцепцій:
1. Чому "окопний" РЕБ -- того, що ним треба користуватися з окопу, тобто, він бачить лише дрони високо в повітрі і досить близько до окопу.
2. ... а найбільшою помилкою серед тих, хто пробує його використовувати, є спроба користуватися ним не з окопу, а з бруствера -- станція пеленгується ворожими засобами за пару десятків км, і до вас прилітає міна, снаряд, а то і ракета.
3. А ще народ часом хоче його використовувати в режимі 24/7, що теж категорично неправильно, бо пеленгують. Кажуть, що якщо пеленгують щось достатньо потужнє, той самий "Буковель", то і з ГРАДа можуть вгатити.
4. Тому правильно використовувати РЕБ так: сидить чувак і добре дивиться, чи не летить якась холера. Оптика, термооптика, власні вуха і очі -- використовуємо виключно пасивні засоби спостереження. Потім бачимо -- летит. Цілимося, пускаємо сигнал і -- міняємо позицію. БО вороги не сплять, холєра, у москалів датчиків і радарів дофіга понатикано :(
5. Працює воно досить недалеко, метрів 200-250 максимум, а якщо у ворогів база з RC PRO (whatever it is), що ще вдвічі менше. Але це не аж така проблема -- бо див. інформацію про "працювати з окопа" і "включати лише коли і так побачили"

Отаке взнав. Сподіваюся, скоро викуплю, щоби друзям там у себе було трохи безпечніше.

UPDATE: ЗНову не те. Бійці хочуть такого (відео), а виробник, з яким я говорив, каже, що на відео то версія антидрон-рушниці, а не РЕБ-псевдокупола. А де знайти таку рушницю, і по чому -- ніхто не каже. Блін :(
malyj_gorgan: (Default)
ЗМІ бідкаються, що Верховний Суд "заборонив" affirmative action при вступі в навчальні заклади: правило, за яким раса поступаючого дає їй/йому перевагу. Я зараз не візьмуся судити глобально, чи це добре, чи погано: з одного боку, я цілком згоден, що квоти і переваги за демографічними ознаками можуть мати тимчасовий позитивний ефект, з іншого боку, сам принцип, однозначно, несправедливий з точки зору індивідуального абітурієнта. Тобто, як завжди, це все можна звести до загального питання: чи можна робити маленьке зло для більшого блага? (Відповідь: як коли, і завжди будуть несправедливо ображені.) Глобально судити не візьмуся, але пару думок на тему прочитного в статтях на тему, зроблю. Без посилань, бо пишуть в середньому одне і те ж саме:
* Сильно переживають, що тепер впаде дайверсіті, при цьому, ніяких спроб оцінити вхідну дайверсіті перед вступом і випускну дайверсіті перед випуском нема. Тим більше нема спроб оцінити будь-які інші параметри, наприклад академічну чесність, індивідуальну справедливість, якість навчання, в кінці-кінців. Чи варто це трактувати, як мовчазне визнання, що все інше від affirmative action'а не фонтанує, хіба лише статистика кольорів?

* Пишуть, що тепер, скорше за все, ще більше універів відмовляться від універсальних тестів як одного з критеріїв для вступу. Що печально: бо хоч тестування має мінуси (тому єдиним критерієм воно бути не повинне), але поки це єдиний універсальний і стабільний критерій, викидати його не варто... Скажімо, так: я бачу сценарії, коли університетам стає ще важче докзати неупередженість в кожному конкретному випадку. Як завжди, єдиною процитованою причиною, чому тести -- це погано, залишається постфактумна статистика типу "афроамериканці здають тести в середньому на 100 балів гірше, ніж білі". Не кажучи вже, що з статистичної точки зору такий підхід -- ганьба, могли б побути креативнішими, сказати, що білі в середньоу на XX балів гірше за азіатів здають (впевнений, що це так).

* На тлі загальної реакції "зрада-зрадонька" не видно жодних спроб конструктиву. Ну, там, обговорення "якщо механізму affirmative action" більше не буде, то як ми можемо досягнути своїх благородних ідей іншими способами? (Так само, як ніхто, замість "давайте відмінимо тести, бо XYZ" не ставить питання "як добитися того, аби представники рас XYZ краще здавали тести?") З іншого боку, ясно чого: бо ненасильницькі методи працюють далеко не так добре, як хотілося б. Приклад з життя: випуск середньої (middle) школи в нашому селі. Крім свідоцтв, деякі діти отримують спеціальні нагороди. Ну, там, хто був хорошим спортсменом і учнем одночасно, хто самі "А" отримував, ну і окрема категорія нагород: хто був, одночасно, афроамериканцем, і отримав більше 3.0 GPA. Тобто, середня оцінка "B" ("добре") і вище. Враховуючи, що з мистецтва заробити щось нижче за "A" треба дуже напружитися, а з фізкультури оцінку ставлять за відвідування, угадайте скільки людей отримало цю нагороду, при тому, що всього афроамериканців на випуск чоловік сто? відповідь під катом ) Якщо якась кореляція з класом є, то дуже слабка, основна причина: вчитися банально not cool. Отак от. А у нас ще далеко не найгірша публіка і, відповідно, школи в регіоні. Відповідно, по-перше, може, результати універсальних тестів, не дискримінують, а відбивають реальний стан справ? А, по-друге, чому ми вважаємо, що зміни саме на етапі прийому в універ щось глобально поміняють. Якщо наша мета -- вирівняти частку людей з вищою освітою для різних рас, то прекрасна проміжна цифра -- dropout rate. З усіх вступників-афроамериканців більше половини до випуску не досиджує (хіспаніків випускається 11/20, білих -- 2/3, азіатів -- майже 3/4). Якщо ми вважаємо, що не довчаються не з академічних або культурних причин, а з економічних, то програми фінансової допомоги повинні все серйозно поправити, хіба ні?

* Пост-радянським неєвреям, особливо, неаристократичного походження, на таке скаржитися гріх, бо якраз в Совку з affirmative action було все в порядку, лише, переважно, за класовими причинами, ну і, ще євреям задирали вимоги, бо в середньому набагато краще вивчалися.
malyj_gorgan: (Default)
В попередньому пості зайшла мова про те, чи то справді діти стали менше знати, чи то ми бурчимо, як старше покоління споконвіку бурчить про молодших. А ось оце сьогодні рано по радіо почув, що діти в США стали сильно гірше знати не лише математику і базове читання, а і історію і суспільствознавство. Про природничі науки посилання не маю, але з усього, що я чув сам, в жодній з природничих наук рівень знань школярів за останнє десятиліття-півтора не покращився, а судячи з відгуків преставників коледжів -- упав.
З фізкультури і спорту рівень точно впав, без варіантів. Навіть якщо не враховувати рівень ожиріння (Останній раз, коли я цю тему піднімав, мені кілька відвідувачів розповідали, що це генетика і нічо з цим не зробиш. Оскільки це прямо означає, що генофонд американців за одне покоління помінявся в рази,... ну, значить, не лише нове покоління не знає біології.)
Незрозуміло, що з програмуванням, але щось я маю сумніви, що покоління тачскрінів уміє в це діло краще, ніж покоління, де, щоби погратися в комп'ютерну іграшку, треба було натискати всякі клавіші. Тим більше, толку з того програмування дітям, які математики не знають.

Відповідно, питання: є якісь невідомі мені пласти знань і вмінь, в яких нове покоління настільки випереджує папєрєдніків, що може собі дозволити відставання в нудних читаннях/писаннях/рахуваннях, чи ми, нарешті-таки умудрилися досягнути тої межі, коли, вперше в історії, скарги на дурну молодь стають таки правдою?

P.S. Не сприйміть за позицію "ми кращі", ні, це позиція "нам ще пощастило". Я впевнений, що наше покоління, якби йому випало жити в таких водночас тепличний і крейзі умовах засилля технологій і комунікацій, було би настільки ж само fuck up. В кінці кінців, якщо світ таки валиться в яму, то цю яму йому викопали ми.
malyj_gorgan: (Default)
Кілька випадкових запитань в аудиторію:

1. Ономастичне
Я тут зазвичай лекції читаю на цю тему, а оце зараз, навпаки, питаюся, бо натрапив на прізвище, де ні в кого ніяких ідей. Джерело: Галичина, саме серце, одне давнє село між Калушем і Долиною.
Як ви думаєте, від чого може походити прізвище "Шихворост"?

2. Корпоративне
Менеджмент (даючи модель того, як споживачі сприймають наш продукт): порахуй, скільки споживачів подумають, що наш продукт поганий/неточний, аби ми знали, як діяти, щоби зробити продукт кращий.
Я: так модель же неточна, цифри будуть низькі.
Менеджмент: не вимахуйся, рахуй, як є.
Я (рахую): ок, ось, 70% покупців, згідно цеї моделі, подумають, що у нас хріновий продукт. Мо, модель поміняєм?
Менеджмент: модель міняти не можна, а ти не впорався, бо твої результати не кажуть нам, як покращувати продукт.
Я: Шозафігня. Давайте іншу модель
Менеджмент: Модель міняти не можна, ти порахуй інакше.
Я: Ви просите цифри підігнати?
Менеджмент: Ми ніколи не просимо цифри підігнати. Рахуй правду. Але інакше.
(... останні кілька кроків повторюються по колу уже місяць...)
Власне, питання: вони дурні чи прикидаються?!

3. Педагогічне
В суботу ходив на "зустріч з батьками" понтової (ну, недешевої, принаймні) католицької школи, куди на другий рік піде моя дитина. До батьків вступників звертався директор, розказував про "дух школи", важливість стати "частиною громади", ще щось. Про власне навчання згадав лише трохи і лише в одному плані: попередив батьків, щоби не хвилювалися, що дітям буде тяжко і чогось вони не вивчатимуть або не розумітимуть. Бо, мовляв, вчені нейрофізіологи кажуть, що у дітей просто ще мозок не до кінця розвинутий, що толком мозок розвинеться аже десь після коледжу, коли їм буде за двадцять / під тридцять років, а до того це ок, що вони не вивчають...
Питання: Seriously?!?!?!

Profile

malyj_gorgan: (Default)
malyj_gorgan

June 2025

S M T W T F S
12 345 67
89 1011 121314
15161718192021
22232425262728
2930     

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Jun. 15th, 2025 02:02 am
Powered by Dreamwidth Studios