히비스서커스의 블로그

[Paper] Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning 논문 정리 본문

Theory/Bio-Medical

[Paper] Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning 논문 정리

HibisCircus 2021. 10. 27. 12:03
728x90

Song, Z., Zou, S., Zhou, W. et al. Clinically applicable histopathological diagnosis system for gastric cancer detection using deep learning. Nat Commun 11, 4294 (2020)의 논문을 읽고 제가 직접 정리한 글입니다. 틀린 부분이 있다면 지적해주세요.

 

Abstract

조기 정확한 진단은 성공적인 치료를 이끈다. 병리의사들 수의 부족은 정확한 진단의 증가와 업무량을 줄 수 있는 인공지능 개발 기회를 제공하고 있다. 이 논문에서 2123 pixel-level H&E stained whole slide image 학습하여 Sensitivity 100%, Specificity 80.6% (3212 whole slide image)의 성과를 거두었다. 이는 병리의사들의 정확한 진단과 오진단을 예방할 수 있음을 보여준다. 더불어 1582 whole slide images를 다른 두 medical center에 대하여 검증함으로써 robust함을 보여주었다. 이 연구는 인공지능을 이용한 병리진단의 실현가능성과 이익을 제공할 수 있음을 제안한다.

 

Introduction

gastric cancer의 특징

  • 전세계에서 발병률 15위 암사망률 3위 지리적으로 다르나 동양인들에 대해 가장 비율이 높다.
  • 498000개의 신규 gastric cancer가 2015년에 진단되어 인류의 암관련 유발에 2번째이다. 

따라서, 조기 발견, 정확한 진단, 외과의 개입이 줄이는 중요한 요소로서 이상치에 덜 민감하고 일관된 병리 서비스가 필수적이다. 하지만, 국가적 전세계적으로 병리의사들의 부족 => 과도한 업무량 => 정확한 진단의 영향을 주고 있다.

 

최근 WSI 형태로의 진단

  • 병리학 실험실들이 WSI의 형태로 digital slide를 진단하는 것을 표준적인 관행으로 도입하는 것이 늘어남
  • AI도입을 통한 현미경에서 WSI로의 전환은 인력난부족과 진단 오류를 줄이도록 함
  • 이를 통해 딥러닝 AI 등의 혁신적인 접근법의 개발을 이루어내게 함

 

AI service를 성공적으로 도입하기 위한 3가지 조건

최근 연구에서 다양한 장기 시스템에서 암을 찾는 병리학 AI의 효과의 검증을 하는 동안 임상적 세팅에 적용을 고려하며 여러 대회들을 식별하였음

1. 딥러닝 모델은 다양한 브랜드의 디지털 스캐너로부터 찾아진 WSI 계속적인 시간주기에 걸쳐 지속적인 슬라이드 수와 함께 테스트 될 수 있어야 한다. sensitivity는 무거운 특성 상 타협할 수 없이 100%에 가까워야 한다.

2. AI 시스템의 도움을 통하여 병리의사들은 진단의 정확도를 높일 수 있어야 한다. 병리의사들이 AI시스템에 대한 신뢰를 가속화하기 위해 모델의 예측은 병리의사들의 강점과 단점을 결정하기 위하여 조사되어야 한다. 

3. 시스템 도입 이전에 다른 병원들의 걸쳐 모델의 성능의 안정성을 인정받기 위해 다기관 테스트가 진행되어야 한다.

이전 연구들은 이러한 문제점들을 다루었으나 모든 기준에 맞는 것은 어떤 것도 없었음

 

PLAGH의(Chinese PLA General Hospital) AI assistant service의 최근적용을 리포트

Figure 1.a

Data 정보

Slide 정보, Patient 정보

  • 2123 pixel-level annotated H&E-stained digital slide from 1500 patients
  • 958 surgical specimen (908 malignancies), 542 biopsies (102 malignanceis)

WSI 정보

  • 40X magnification (mpp: 0.238) KFBio-KF-PRO005 digital scanner
  • 12명의 senior pathologist, SOP(standard operating procedure) (iPad-based annotation)

분류체계

4th Edition WHO Classification of Tumor of Digestive System 

병리의사들 정확한 annotation using Apple Pencil => malignant(high-grade intraepithelial neoplasia와 carcinom를 포함함. 외과개입이 필요하기 때문), benign, poor quality, ignore (4가지)

poor quality :: 낮은 preparation or 낮은 스캐너 퀄리티

ignore :: 진단이 어려운 slide를 표현하였음

모델학습 관련

1. 테스크와 모델 

  • DeepLab v3 architecture
  • pixel-level cancer detection이 가능한 binary image segmentation 

2. pacth

  • 200배율 320 x 320 패치로 나누어 진행함

3. data augmentation

  • random rotation, random flip
  • Gaussain motion blur, color jittering, brightness(0.0-0.2), saturation(0.0-0.25) contrast(0.0-0.2) hue(0.0-0.04)

4. data acquition

  • 다른 병원에서  WSI를 모음

5. detail

  • poor quality, ignore의 경우 loss를 적게 주는 방법
  • Inference Phase :: 각각의 픽셀들이 malignant의 확률로 할당되도록 훈련
  • Slide-level Prediction
    • 모든 픽셀에 대하여 pixel-level-prediction(확률값)을 정렬하여 예측함
    •  가장 높은 1000개의 확률값을 적용하였고 평균을 내어 slide-level prediction에 적용함
  • 흔히 이용하는 방법인 patch classification과 sliding window, semantic segmentation의 접근을 비교하면 semantic segmentation 접근이 좀 더 자세하고 풍부한 pixel 수준의 예측값을 제공함

6. 결과

  • 3212 WSI는 3 scanner models를 통해 디지털화하여 매일 관찰한 것들 sensitivity 0.996, specificity 0.806
  • 병리의사들 진단 정확도를 높이고 오진단을 줄임 + 다기관 테스트를 통해 1582 WSI 2개의 메디칼센터로부터 robust함을 인정받음

 

Result

Trial run

  • 매일 3달에 걸쳐서 만듦
  • KFBio KF-PRO-005 => 403 WSI X40
  • Ventana DP200 => 977 WSI X40
  • Hamamatsu NanoZoomer S360 => 1832 WSI X40
  • AUC 0.986(accuracy:0.873, sensitivity:0.996, specificity:0.843), standard deviation 0.018(0.099. 0.011, 0.109)
  • sensitivity: tubular adenocarcinoma 0.998, poorly cohesive carcinoma 1.0

매일 얻어진 gastric dataset 환자수준의 데이터 분포 

Assistance for pathologists

malignancy 간과를 예방하기 위해 AI system은 병리의사들의 즉각적으로 면밀한 재평가를 수행하기 위한 abnormal area를 강조해야 한다.  두 가지 놓친 케이스가 존재하는데 이를 살펴보면

 

1. biopsy와 surgical에서 다른 진단을 받은 케이스

surgical specimen에서는 cancer로 진단을 받았으나 cancer cell의 수가 적어서 처음 biopsy에서는 이를 놓쳤다.

tumor  cell이 foveolar eptihelium에 흩뿌려져 있었고, 더 높은 배율에야 관찰이 가능했다.

2. 놓치기 쉽게 기만하도록 bland looking cancer cells 

  • 이러한 오진단은 서두르게 읽다보면 (멀티태스킹 or 하루의 마지막 케이스) 가능하지만 흔하지 않음
  • AI assistance system은 성공적으로 subtle regions을 표시하는데 성공하였다. 이는 실제 세계의 시나리오에서 병리의사가 보조 테스트를 수행하여 재평가하도록 바뀔 수 있음을 암시한다.
  • AI assistance system은 사전분석 툴로 의심스러운 케이스에 대한 우선순위 뿐 아니라 병리의사들에게서 얻는 두번째 의견과 같은 존재가 될지도 모른다.

IHC dataset 어려운 케이스

  • IHC dataset은 어려운 증례로 추가 면역검사 시행을 통해 최종 진단 결정하는데 도움을 받기도 함
  • malignant와 benign case에 대한 명확한 분류
  • mglignant case 에 대해서는 합리적으로 명확함
  • benign case 에 대해서는 매우 주목할만하게 큰 variance를 가짐
  • H&E 염색에 WSI를 기반으로 한 모델이므로 유용한 시각적 신호 =>암위험도의 확률을 제공해주는 heatmap
  • benign case는 malignant case와 비교한 확률에 대해 분류함

IHC dataset안에 malignant와 benign 케이스의 확률분포에 대한 violin plot

 

4개의 level로 나뉜 100개의 슬라이드와 이를 판독하는 그룹 정보

Internal examination

100 slide를 12명의 junior 병리의사가 현미경으로 진단하는 그룹, WSI로 진단하는 그룹과 AI의 도움을 받아 진단하는 그룹 3그룹으로 나뉘어 진행하였음. 

1. 저배율로 진단 쉬운 것 34 WSI

2. 고배율로 봐야하는 것 39 WSI

3. 어렵지만 IHC 필요 없는 것 23 WSI

4. IHC가 필요한 것 4 WSI

AI도움을 받은 것은 현미경(0.008/0.060)과 WSI(0.013/0.018)과 비교하여 더 우수한 성능을 나타냄 + AI-assisted group이 더 적은 변동을 보여줌

 

제한시간이 있을 때와 없을 때 비교

모델의 성능은 병리 전문의와 동등하거나 우월한 성능을 확인하였고 AI의 도움을 받는 것이 더 좋은 성과를 보임

 

Multicentre test

AI assistance system은 다른 병원으로부터 모아진 slide에 대해서 robust함이 보여져야 한다. 이를 위해 두 개의 다른 병원에서 테스트를 진행하였다.

 

  • Peking Union Medical College Hospital (PUMCH)에서 355 cases (595 WSIs)
  • Cancer Hospital, Chinese Academy of Medical Sciences (CHCAMS)에서 541 cases (987 WSIs)

 

결과

AUC (accuracy, sensitivity, specificity)

  • PUMCH: 0.990 (0.943, 0.986, 0.937)
  • CHACMS: 0.996 (0.976, 1.0, 0.968)

결론

  • deep learning모델을 이용한 진단 정확도의 향상을 보임
  • 개발도상국의 병리전문의의 부족을 AI assistance system이 제한된 시간 내의 진단의 질을 높일 것으로 보임
  • 선진국에서는 오진단을 감소할 것으로 보임

 

Method

Datasets

6가지

1. training dataset :: 2123 WSI

2. training dataset (random forest) :: 737 WSI

3. validation dataset :: 300 WSI for hyperparameter tunning

4. internal examination dataset :: 100 WSI 공동테스트를 위해 쓰임

5. daily gastric dataset :: 3212 WSI

6. IHC dataset :: 99 WSI

Annotation procedure

PLAGH 1301 WSI

ThoSlide 2.1.0 proprietary library access the WSI

1. initial labeling stage -> randomly split and review => annotation의 진행됨에 따라 점차적으로 발전함

2. verification stage

3. final check stage

Preprocessing

Otsu's method thumbnail WSI를 얻기 위함

$\sigma^2_w(t) = w_1(t)\sigma^2_(1)(t) + w_2(t)\sigma^2_(2)(t)$에서 $w_1, w_2의 값을 0.5로 고정함$

Algorithm development

Model :: Deeplab v3 + backbone model :: ResNet-50, 학습시간 :: 42.6h

inference stage

  • 2000 X 2000 pixel + 10% overlap ratio
  • 2200 X 2200 pixel를 받아 중앙쪽 2000 X 2000 pixel 영역만 사용함으로써 적용

Slide-level Prediction

  • averaging the top 100, 200, 500, 1000, and 2000 probabilities
    • 모든 픽셀에 대하여 pixel-level-prediction(확률값)을 정렬함
    • 가장 높은 (100, 200, 500, 1000, 2000)개의 확률값을 적용
    • 평균을 내어 slide-level prediction에 적용함

  • random forest를 포함
    • training dataset의 heatmap으로부터 30가지 feature를 뽑아 random forest를 적용함

Evaluation metrics

$Accuracy = \frac{N_{TP} + N_{TN}}{N_{TP} + N_{TN} + N_{FP} + N_{FN}}$

$Sensitivity = \frac{N_{TP}}{N_{TP} + N_{FN}}$

$Specificity = \frac{N_{TN}}{N_{TN} + N_{FP}}$

 

 

 

- 히비스서커스 -

728x90