Современная медицина и медицинская наука все больше прибегают к использованию сложных математических методов для анализа больших объемов данных большой размерности и на их основе разработки алгоритмов принятия диагностических и терапевтических решений.
Один из основных аналитических методов — математическая статистика. Врачи собирают данные о заболеваемости, эффективности лечения, побочных эффектах лекарств и других факторах, и затем анализируют эти данные с помощью статистических методов. Это позволяет оценить эффективность лечения, определить факторы риска, планировать исследования и делать прогнозы.
Выступая на конференции «Татьянин день» – элементы искусственного интеллекта в современной гематологии» кандидат технических наук, начальник информационно-аналитического отдела НМИЦ Гематологии Минздрава России Сергей Куликов представил доклад «Поиск генетических предикторов ответа на терапию заболеваний системы крови с использованием алгоритмов машинного обучения».
Обращаясь к участникам конференции, Сергей Михайлович отметил, что цель его доклада – уберечь исследователей от ложных ожиданий чуда. Спикер особо подчеркнул, что машинное обучение и искусственный интеллект, это разные вещи. Машинное обучение - это набор современных статистических методов для углубленного анализа решения сложных задач большой размерности, когда классический многофакторный анализ перестает устойчиво работать. Основная цель машинного обучения - ранжирование признаков по их прогностической значимости для задач классификации, регрессии, событийного анализа и построения решающих правил с возможностью их интерпретации.
В последние годы ко всем алгоритмам, которые претендуют на звание искусственный интеллект, машинное обучение, выдвигают такое требование как интерпретабельность, объяснимость. Результирующий алгоритм, построенный системами МО должен уметь объяснять человеку свое решающее правило. Особенно это важно в медицине.
Сергей Михайлович показал работу алгоритмов машинного обучения на примере хронического миелолейкоза, множественной миеломы, острого промиелоцитарного лейкоза, когда приходится сталкиваться с тем, что число признаков сравнимо или больше чем объем выборки.
В работе использовались: для классификации и анализа событий – метод МО, известный под названием «случайные леса». Методы классического статистического анализа использовались для сравнения и интерпретации. Также приведены примеры использования алгоритмов обработки свободного текста для целей предобработки и кодирования.
Один из примеров использования методов МО был анализ связи изменения числа копий с фокусом на вовлеченных генах и выживаемости больных В-клеточным острым лимфобластным лейкозом в датасет были включены 36 пациентов с Ph – В-ОЛЛ, получающих терапию в НМИЦ гематологии по протоколу ОЛЛ-2016 с 2019 по 2023 год.
Для анализа использовано 46 бинарных признаков, содержащие информацию о наличии транслокации, увеличении или уменьшении копийности с вовлечением определенного гена, а также наличие гиперплазии. С помощью метода случайных лесов сотрудники отдела отранжировали по степени важности, т.е. степени связи с выживаемостью исходные признаки.
В список были включены известные факторы влияющие на исход: наличие транслокация t(4:11) - специфическая хромосомная аберрация, которая чаще всего встречается при остром лимфобластном лейкозе (ОЛЛ) и считается неблагоприятным фактором, изменение числа копий с вовлечением гена CDKN2A (ген кодирует несколько белков, которые замедляют деление клеток и действуют как супрессор опухоли) - нейтральный фактор, а транслокация t(7;14) – благоприятный фактор.
Исследователи пришли к выводу, что наиболее неблагоприятным генетическим фактором по результатам анализа являются наличие транслокации t(4:11) и увеличение копийности генов BIRC3 и АТМ.
Ген АТМ несет информацию о белке, распознающем повреждения ДНК и участвующем в процессе их исправления. Если мутация есть, клетка недостаточно хорошо справляется с восстановлением своего генетического материала, а значит, увеличивается риск развития опухолей.
Статья большой группы авторов нашего центра с результатами этого исследования опубликованы в International Journal of Molecular Sciences ( https://doi.org/10.3390/ijms242417602, Risinskaya et al.)
Также в докладе был представлен анализ эффективности терапии больных ХМЛ препаратом асциминиб. Это первый и единственный аллостерический ингибитор BCR::ABL. В России зарегистрирован в январе 2023 года.
Ученых и врачей интересовало от каких генетических факторов зависит ответ на терапию. В исследование были включены 29 больных с неудачей в двух линиях терапии другими препаратами. Наибольшую прогностическую значимость имеют мутации ASXL1 и RUNX1,
Асциминиб показал клинически значимую эффективность у пациентов с мутацией T315I (мутация в этом гене вызывает резистентность лейкозных клеток ко всем известным ингибиторам тирозинкиназ) почти 48,9% к 96-й недели терапии.
В докладе также показаны результаты исследования по прогнозу исхода неврологических нарушений у гематологических больных. Важным элементом решения этой задачи стал первичный лингвистический анализ для предварительной обработки текстовой информации, превращения ее в набор числовых признаков пригодных для дальнейшего статистического анализ. Анализировались данные заключений МРТ, ЭЭГ и вызванным потенциалам в форме свободного текста, на момент первой консультации. Подробно представлены этапы предобработки текста заключений для оцифровки и формализации заключений экспертов. .Исследователи получили ранжирование признаков нарушений в первичном осмотре, что в наибольшей степени связаны с плохим прогнозом.
В заключении отмечено, что в научных исследованиях часто возникает ситуация когда информации много, а объектов исследования мало. Этот конфликт заставляет искать новые алгоритмы. Однако, несмотря на мощность новых инструментов анализа, это не освобождает от необходимости делать предобработку данных с целью сокращения размерности исходной информации.
– Чудес не бывает, дополнительно к методам МО нужно использовать биологические, математико-статистические модели, – отметил Сергей Михайлович. – Нужно делать попытку сокращения размерности и только потом использовать эти методы. Случайные леса, по нашему мнению, наиболее устойчивый и результативный инструмент машинного обучения. В основном он предназначен для поискового анализа. В последующим результаты его работы нужно проверять классическими методами биостатистики. Никакие продвинутые методы не снижают требования к качеству данных и репрезентативности обучающей выборки. Важно помнить, что мусор порождает мусор. Надо быть очень осторожным в практическом применении. Нельзя использовать машинное обучение, если машина не поясняет решение. Репозитории (библиотеки, архивы, коллекции) данных - фундамент и залог успеха использования машинного обучения и искусственного интеллекта.