Цель. Разработать с использованием алгоритмов машинного обучения модели прогнозирования госпитализаций пациентов с артериальной гипертензией (АГ) в течение 12 мес. и провести их валидацию на данных реальной клинической практики.Материал и методы. По сведениям из деперсонифицированных электронных медицинских карт, полученных из платформы Webiomed, отобрано 1165770 записей 151492 пациентов с АГ. В качестве предикторов, после первоначальной селекции, были использованы анамнестические, конституциональные, клинические, инструментальные и лабораторные данные, широко применяемые в рутинной врачебной практике, всего 43 признака. Для создания моделей применялись инструменты автоматического машинного обучения. Рассматривался широкий набор алгоритмов, включая логистическую регрессию, методы, основанные на деревьях решений c использованием градиентного бустинга и бэггинга, дискриминантный анализ, алгоритм на основе нейронных сетей и наивный байесовский классификатор. Для внешней валидации использованы данные отдельного региона.Результаты. Наилучшие результаты показала модель XGBoost, достигнув AUROC (площадь под характеристической кривой) 0,849 (95% доверительный интервал: 0,825-0,873) при внутреннем тестировании и 0,815 (95% доверительный интервал 0,797-0,835) при внешней валидации.Заключение. В результате исследования разработана новая высокоточная модель прогнозирования госпитализации пациентов с АГ по данным реальной клинической практики. Результаты внешней валидации предложенного прогностического инструмента показали относительную устойчивость к новым данным из другого региона, что в совокупности с показателями качества отражает возможность ее апробации в реальной клинической практике.
1. Кобалава Ж. Д., Конради А. О., Недогода С. В. и др. Артериальная гипертензия у взрослых. Клинические рекомендации 2020. Российский кардиологический журнал. 2020;25(3):3786. doi:10.15829/1560-4071-2020-3-3786.
2. Gaziano TA, Bitton A, Anand S, et al. The global cost of nonoptimal blood pressure. J Hypertens. 2009;27:1472-7. doi:10.1097/HJH.0b013e32832a9ba3.
3. Wang G, Fang J, Ayala C. Hypertension-associated hospitalizations and costs in the United States, 1979-2006. Blood Pressure. 2014;23: 126-33. doi:10.3109/08037051.2013.814751.
4. Lee W, Lee J, Lee H, et al. Prediction of hypertension complications risk using classification techniques. Ind Eng Manag Syst. 2014; 13:449-53. doi:10.7232/iems.2014.13.4.449.
5. Feng Y, Leung AA, Lu X, et al. Personalized prediction of incident hospitalization for cardiovascular disease in patients with hypertension using machine learning. BMC Med Res Methodol. 2022; 22:325. doi:10.1186/s12874-022-01814-3.
6. Lee SJ, Lee SH, Choi HI, et al. Deep learning improves prediction of cardiovascular disease-related mortality and admission in patients with hypertension: analysis of the Korean National Health Information Database. J Clin Med. 2022;11:6677. doi:10.3390/jcm11226677.
7. Wu X, Yuan X, Wang W, et al. Value of a machine learning approach for predicting clinical outcomes in young patients with hypertension. Hypertension. 2020;75:1271-8. doi:10.1161/HYPERTENSIONAHA.119.13404.
8. Ren Y, Fei H, Liang X, et al. A hybrid neural network model for predicting kidney disease in hypertension patients based on electronic health records. BMC Med Inform Decis Mak. 2019;19:51. doi:10.1186/s12911-019-0765-4.
9. Park J, Kim JW, Ryu B, et al. Patient-level prediction of cardio-cerebrovascular events in hypertension using Nationwide Claims Data. J Med Intern Res. 2019;21:11757. doi:10.2196/11757.
10. Lacson RC, Baker B, Suresh H, et al. Use of machine-learning algorithms to determine features of systolic blood pressure variability that predict poor outcomes in hypertensive patients. Clin Kidney J. 2019;12:206-12. doi:10.1093/ckj/sfy049.
11. Chen R, Yang Y, Miao F, et al. 3-year risk prediction of coronary heart disease in hypertension patients: a preliminary study. 2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. 2017;1182-5. doi:10.1109/EMBC.2017.8037041.
12. Moons KGM, Altman DG, Reitsma JB, et al. Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD): explanation and elaboration. Ann Intern Med. 2015;162:W1-73. doi:10.7326/M14-0698.
13. Андрейченко А. Е., Ермак А. Д., Гаврилов Д. В. и др. Разработка и валидация моделей машинного обучения, прогнозирующих риск госпитализации пациентов с сахарным диабетом в течение последующих 12 месяцев. Сахарный диабет. 2024;27(2):142-57. doi:10.14341/DM13065.
14. Андрейченко А. Е., Лучинин А. С., Ившин А. А. и др. Разработка и валидация моделей прогнозирования общего риска преэклампсии и риска ранней преэклампсии с использованием алгоритмов машинного обучения в первом триместре беременности. Акушерство и гинекология. 2023;2:94-107. doi:10.18565/aig.2023.101.
15. Sokolova M, Lapalme G. A systematic analysis of performance measures for classification tasks. Information Processing & Management. 2009;45:427-37. doi:10.1016/j.ipm.2009.03.002.
16. Zoubir AM, Iskander DR. Bootstrap Methods and Applications: A Tutorial for the Signal Processing Practitioner. IEEE Signal Processing Magazine. 2007;24:10-9. doi:10.1109/MSP.2007.4286560.
17. Ding Y, Simonoff JS. An investigation of missing data methods for classification trees applied to binary response data. J Mach Learn Res. 2010;11:131-70. doi:10.1145/1756006.1756012.
18. Cao XH, Stojkovic I, Obradovic Z. A robust data scaling algorithm to improve classification accuracies in biomedical data. BMC Bioinformatics. 2016;17. doi:10.1186/s12859-016-1236-x.
19. Amorim LB, Cavalcanti GD, Cruz RM. The choice of scaling technique matters for classification performance. Appl Soft Comput. 2023;133. doi:10.1016/j.asoc.2022.109924.
20. Weiss GM. Foundations of Imbalanced Learning. In: Haibo H, Yunqian M. Imbalanced Learning: Foundations, Algorithms, and Applications. USA: John Wiley & Sons. 2013:13-41. ISBN: 9781118074626.
21. Gain U, Hotti V. Low-code AutoML-augmented data pipeline — a review and experiments. JPCS. 2021;1828. doi:10.1088/1742-6596/1828/1/012015.
22. Bergstra J, Bengio Y. Random search for hyper-parameter optimization. J Mach Learn Res. 2012;13:281-305.
23. Lundberg SM, Erion G, Chen H, et al. From local explanations to global understanding with explainable AI for trees. Nat Mach Intell. 2020;2:56-67. doi:10.1038/s42256-019-0138-9.
24. Fischer BG, Evans AT. SpPin and SnNout are not enough. It’s time to fully embrace likelihood ratios and probabilistic reasoning to achieve diagnostic excellence. J Gen Inter Med. 2023;38:2202-4. doi:10.1007/s11606-023-08177-5.