Preview

Медицинская визуализация

Расширенный поиск

Распознавание областей текста с персональными данными на диагностических изображениях

https://doi.org/10.24835/1607-0763-1263

Аннотация

Цель исследования: разработка метода обнаружения областей текста с приватными данными на медицинских диагностических изображениях при помощи модуля Tesseract и модифицированного расстояния Левенштейна.

Материал и методы. Для пороговой фильтрации на начальном этапе определяется яркость точек, принадлежащих символам текста на изображениях. Динамический порог вычисляется по гистограмме яркостей пикселей изображения. Далее для первичного распознавания текста используется модуль Tesseract. На основании значений тэгов из DICOM-файлов формировался набор строк для поиска их в распознанном тексте. Для поиска этих строк использовалось модифицированное расстояние Левенштейна. Для тестирования алгоритма применялся набор DICOM файлов типа “Dose Report” модальности CT. Оценку точности проводили эксперты, размечающие блоки приватной информации на изображениях.

Результаты. Разработан инструмент с набором метрик и оптимальных порогов для выбора решающих правил в нахождении совпадений, позволяющих обнаруживать области текста с приватными данными на медицинских изображениях. Для этого инструмента определена точность локализации областей с личными данными по сравнению с экспертной разметкой, которая составляет 99,86%.

Заключение. Разработанный в рамках настоящего исследования инструмент позволяет выявлять персональные данные на цифровых медицинских изображениях с высокой точностью, что указывает на возможность его практического применения при подготовке наборов данных.

Об авторах

В. П. Новик
ГБУЗ “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”
Россия

Новик Владимир Петрович – научный сотрудник отдела медицинской информатики, радиомики и радиогеномики

109029 Москва, Средняя Калитниковская ул., д. 28, стр. 1



Н. С. Кульберг
ФГУ “Федеральный исследовательский центр “Информатика и управление” Российской академии наук”
Россия

Кульберг Николай Сергеевич – канд. физ.-мат. наук, старший научный сотрудник Института кибернетики и образовательной информатики

119333 Москва, ул. Вавилова, д. 44, корп. 2



К. М. Арзамасов
ГБУЗ “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”
Россия

Арзамасов Кирилл Михайлович – канд. мед. наук, руководитель отдела медицинской информатики, радиомики и радиогеномики

109029 Москва, Средняя Калитниковская ул., д. 28, стр. 1



С. Ф. Четвериков
ГБУЗ “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”
Россия

Четвериков Сергей Федорович – начальник сектора разработки систем внедрения медицинских интеллектуальных технологий отдела медицинской информатики, радиомики и радиогеномики

109029 Москва, Средняя Калитниковская ул., д. 28, стр. 1



А. Н. Хоружая
ГБУЗ “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”
Россия

Хоружая Анна Николаевна – младший научный сотрудник отдела инновационных технологий

109029 Москва, Средняя Калитниковская ул., д. 28, стр. 1

тел.: +7-977-423-32-78



Д. В. Козлов
ГБУЗ “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”
Россия

Козлов Дмитрий Владимирович – младший научный сотрудник отдела медицинской информатики, радиомики и радиогеномики

109029 Москва, Средняя Калитниковская ул., д. 28, стр. 1



Е. И. Кремнева
ГБУЗ “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”; ФГБНУ “Научный центр неврологии”
Россия

Кремнева Елена Игоревна – канд. мед. наук, ведущий научный сотрудник отдела инновационных технологий ГБУЗ города Москвы “Научно-практический клинический центр диагностики и телемедицинских технологий ДЗ города Москвы”; старший научный сотрудник ФГБНУ “Научный центр неврологии”

109029 Москва, Средняя Калитниковская ул., д. 28, стр. 1
125367 Москва, Волоколамское шоссе, д. 80, стр. 1



Список литературы

1. dicomstandard.org [Internet]. Dicom standard: Current Edition [cited 2022 Aug 27]. Available from: https://www.dicomstandard.org/current.

2. Aryanto K.Y.E., Oudkerk M., van Ooijen P.M.A. Free dicom de-identification tools in clinical research: functioning and safety of patient privacy. Eur. Radiol. 2015; 25 (12): 3685–3695. http://doi.org/10.1007/s00330-015-3794-0

3. Daye D., Wiggins W.F., Lungren M.P. et al. Implementation of Clinical Artificial Intelligence in Radiology: Who Decides and How? Special Rep. Radiol. 2022; 305 (1): E62. http://doi.org/10.1148/radiol.229021

4. dclunie.com [Internet]. David Clunie's Medical Image Format Site: Dicomcleaner [cited 2022 Aug 23]. Available from: http://www.dclunie.com.

5. Cook T.S., Zimmerman S.L., Steingall S.R. et al. Radiance: An automated, enterprise-wide solution for archiving and reporting ct radiation dose estimates. Radiographics. 2011; 31 (7): 1833–1846. http://doi.org/10.1148/rg.317115048

6. Vcelak P., Kryl M., Kratochvil M., Kleckova J. Identification and classification of dicom files with burned-in text content. Int. J. Med. Inform. 2019; 126: 128–137. http://doi.org/10.1016/j.ijmedinf.2019.02.011.

7. Monteiro E., Costa C., Oliveira J.L. A de-identification pipeline for ultrasound medical images in dicom format. J. Med. Syst. 2017; 41 (5): 89. http://doi.org/10.1007/s10916-017-0736-1.

8. Kin G., Tsui W., Chan T. Automatic selective removal of embedded patient information from image content of dicom files. Am. J. Roentgenol. 2012; 198 (4): 769–772. http://doi.org/10.2214/AJR.10.6352

9. Smith R. An overview of the Tesseract OCR engine. Proc. in Int. Conference on Document Analysis and Recognition (ICDAR). 2007; 629–633. http://doi.org/10.1109/ICDAR.2007.56

10. Левенштейн В. Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады АН СССР. 1965; 163: 845–848.

11. Schulz K., Mihov S. Fast string correction with levenshtein automata. IJDAR. 2002; 5: 67–85. http://doi.org/10.1007/s10032-002-0082-8

12. github.com [Internet]. Center of Diagnostics and Telemedicine. Find Anomalies in Tomography. Medical images markup system [cited 2022 Aug 3]. Available from: https://github.com/Center-of-Diagnostics-andTelemedicine/FAnTom.

13. Mason D. SU-E-T-33: Pydicom: An Open Source DICOM Library. Medical Physics. 2011; 38 (6, Part 10): 3493–3493. ttp://doi.org/10.1118/1.3611983

14. Bradski G. The OpenCV Library. Dr Dobb's Journal of Software Tools. 2000.

15. Павлов Н.А., Андрейченко А.Е., Владзимирский А.В., Ревазян А.А., Кирпичев Ю.С., Морозов С.П. Эталонные медицинские датасеты (MosMedData) для независимой внешней оценки алгоритмов на основе искусственного интеллекта в диагностике. Digital Diagnostics. 2021; 2 (1): 49–66. http://doi.org/10.17816/DD60635

16. Morozov S.P., Gombolevskiy V.A., Elizarov A.B. et al. A simplified cluster model and a tool adapted for collaborative labeling of lung cancer CT scans. Comput. Methods Programs Biomed. 2021; 206: 106–111. http://doi.org/10.1016/j.cmpb.2021.106111.

17. О персональных данных: [федер. закон: принят Гос. Думой 8 июля. 2006 г.: по состоянию на 2 июля 2021 г.].


Рецензия

Для цитирования:


Новик В.П., Кульберг Н.С., Арзамасов К.М., Четвериков С.Ф., Хоружая А.Н., Козлов Д.В., Кремнева Е.И. Распознавание областей текста с персональными данными на диагностических изображениях. Медицинская визуализация. 2023;27(4):150-158. https://doi.org/10.24835/1607-0763-1263

For citation:


Novik V.P., Kulberg N.S., Arzamasov K.M., Chetverikov S.F., Khoruzhaya A.N., Kozlov D.V., Kremneva E.I. Recognition of text areas with personal data on diagnostic images. Medical Visualization. 2023;27(4):150-158. (In Russ.) https://doi.org/10.24835/1607-0763-1263

Просмотров: 305


ISSN 1607-0763 (Print)
ISSN 2408-9516 (Online)