malyj_gorgan | як коли знаходиш свій зошит за пʼятий клас

Переглядав якісь старі емейли і знайшов цікавий кусок коду десь десятилітньої давності. Це були часи, коли я ще був бона фіде вченим, жив в Матлабі, а продакшн код, типу статистичних алгоритмів томографічного відновлення гігантських 3D картинок писав на C. І раптом мені довелося шукати роботу в індустрії, і дали мені зробити домашнє завдання. Ну, є така фішка, особливо давніше була, при пошуках датазнавців дають програмувальний проект. Ну, там, прочитати дані з CSV файлів, пару перетворень, класифікатор, все таке. Зараз -- роботи на півгодини.

Який було би зробити просто, але одна засада - треба було використовувати Python, а я про нього тоді не знав приблизно нічого. Взагалі. Про бібліотеки, про саме існування якихось бібліотек. Відкрив сайт python.org, почав заглядати в документацію... І написав! Правда, тиждень грався, але навіть в час вклався, бо на ту домашку ліміту не було. В процесі щось вивчив, наприклад, з нуля на коліні написав naive Bayes класифікатор для змішаних числових і категорійних змінних (а от нема такого в їхніх бібліотеках, бо надто кастомізовано).

Послав в ту компанію. Чувак відповів -- data science aspects -- superb. Але взяти вони мене не візьмуть, бо у них трохи інший підхід до програмування.

І дивлячись на код нижче, я розумію, чому.... :)
Але, тим не менше, як на людину, яка вчора вперше відкрила документацію Пітону, і обчислює все в Сі, мені, знаєте, навіть не соромно.

А, код -- прочитати CSV табличку.


def read_csv_with_names(fname):
    try:
        fid = open(fname, 'r')
    except:
        raise NameError('Cannot read fname '+fname)
    Nrow, Ncol = -1, 0
    rows, columns, values = {}, {}, []
     
    for s in fid:
        s = s.strip().split(',')
        if(Nrow == -1):
            for z in s[1:]:
                columns[z] = Ncol
                Ncol += 1
            # done dealing with the first file
        else: # we know we are not in the first row
            rows[s[0]] = Nrow
            v = []
            for z in s[1:]:
                if z: v.append(float(z))
                else: v.append(float('inf'))
            values.append(v)	
        Nrow += 1
    # done reading
    fid.close()
    return Nrow, Ncol, rows, columns, values 

UPDATE:
Якщо неясно, то вищенаписаний код -- це спроба скопіювати логіку Сі там, де від неї лише шкода. Він ігнорує існування бібліотек, безпричинно перевизначає  код помилки), і, найгірше, обчислює абсолютно непотрібні змінні, які там для того, щоби потім звертатися до даних в таблиці як до матриці, за числовими індексами. Словом, зараз я те ж саме пишу так:
import pandas
pandas.read_csv(filename,index=0).fillna(float('inf'))
І навіть абсолютно функціонально ідентичний до мого колишнього метод виглядає так:
import pandas
def read_csv_with_names(fname):
    df = pandas.read_csv(fname, index_col=0).fillna(float('inf'))    
    return (df.shape[0], df.shape[1],
            {v:k for k,v in enumerate(df.index)},
            {v:k for k,v in enumerate(df.columns)},
            df.values.tolist())

Flat | Top-Level Comments Only

From:

juan_gandhi

Очень даже приличный код. Думаю, у них были совсем другие причины. Например: не китаец.

From:

malyj_gorgan

Та ні, мій інтерв'юер мені потім підтвердив, навіть коли перейшов з тої компанії кудись далі.
Це був стартап в СФ, який пробував писати ML методи аналізу тримірних картинок всяких медичних сканів. Я концептуально їм дуже підходив -- нескромно вважаю, що на той момент я був серед десятка кращих спеціалістів з реконструкції таких картинок в регіоні, і чи не єдиний on the job market. Не тому, що я такий розумний, а тому, що спеціалізація непопулярна і в регіоні майже не представлена.
Вся лажа в тому, що їм потрібна була людина, яка би прямо зараз почала працювати над реальними проектами, а не вчилася півроку, переписуючи з нуля кожен метод. Я в апдейті написав, як було правильно :)

From:

juan_gandhi

Классные задачи. 3d, выделение границ, преобразование Радона всякое... Вкусно. (Но не мне; я люблю код писать.)

From:

malyj_gorgan

Ага, воно
Там, насправді, дофіга цікавого і в плані код писати -- просто, заодно з усякою математикою.
Я, наприклад, мав один проект: 3D reconstruction (узагальнений Радон-трансформ, воно) через оптимізацію, але не у вигляді тримірної матриці вокселів, а на тетраедральну сітку з адаптивною геометрією вузлів. На жаль, після того, як я зробив прототип і опублікував статтю, далі воно не пішло -- там потрібна була команда і, в ідеалі, інтерес в індустрії. А шкода...

From:

juan_gandhi

Хм, звучит как идеальное решение, тетраэдральная сетки и адаптивная геометрия. Классно.

From:

ukurainajin

s = s.strip().split(',')
Пайтон може на ходу змінювати типи змінних? З рядка зробити масив?

Edited Date: 2025-03-29 11:21 am (UTC)

From:

malyj_gorgan

Я думав -- це стандартний str метод, не лише в Пітоні.
Тобто, тут тип змінної не міняється, залишається текстом. Зі зміною типу в правильному Пітоні треба би було так:
s = [c if k=0 else float(c) for k, c in enumerate(s.strip().split(','))]

Edited Date: 2025-03-29 04:52 pm (UTC)

From:

ukurainajin

Залишається текстом? А що тоді повертає split? Хіба не масив рядків? Тож бо й воно, що метод spit — це типова операція в різних мовах. Розбиває рядок за роздільником на масив підрядків.
Результат (тобто масив) у цьому коді записано назад до тієї самої змінної s, котра спочатку була рядком. Тому я й спитав про зміну типу.

Edited Date: 2025-03-30 07:21 pm (UTC)

From:

malyj_gorgan

Зрозумів питання:
я мав на увазі, що спліт робить з рядка масив рядків, а каст на числові змінні стається пізніше

From:

sassa_nf

> дивлячись на код нижче, я розумію, чому.... :)

А я ні

From:

malyj_gorgan

Написав апдейт.
Якщо метафорично, вони шукали муляра, а не людину, яка, почувши, що треба збудувати стіну, йде читати, як збирати глину і самому випалювати цеглу.

From:

sassa_nf

А, тоді зрозуміло. Так, бездоганний код програміста не підходить у data science, я це помітив.

From:

malyj_gorgan

СУть не в тому, що код не підходить, а в тому, що треба тратити сили на датазнавство, а не писати з нуля методи, які давно є і вилизані поколіннями користувачів.
Це, приблизно, як нинішній програміст, замість писати код на рівні абстракцій, почне писати звертання до операцій памʼяті ...

From:

sassa_nf

Та я розумію. Це я як програміст щодня роблю. Я про pandas. Мене від нього коробить як програміста.

From:

malyj_gorgan

Мене теж часом коробить
Але переважно звик :)

From:

bytebuster

Код як код, цілком норм, враховуючи ті часи.

Якщо сильно прискіпуватися:
* занадто процедурний,
* відсутність можливості іншої типізації даних (захардкожений float),
* захардкожена наявність header row,
* пряма робота з масивами скасовує можливість async aka lazy computation.

From:

malyj_gorgan

Все це і зверху теж. Guilty as charged.

From:

bytebuster

…Але одразу амністовано за спливанням терміну давності. :)

Flat | Top-Level Comments Only

Profile

malyj_gorgan

March 2026

S	M	T	W	T	F	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Page Summary

Active Entries

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Mar. 13th, 2026 10:16 am

Малий Ґорґан

як коли знаходиш свій зошит за пʼятий клас

як коли знаходиш свій зошит за пʼятий клас

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Profile

March 2026

Most Popular Tags

Page Summary

Active Entries

Style Credit

Expand Cut Tags