ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Fusion of medical imaging and electronic health records using deep learning: a systematic review and implementation guidelines
    2021_Project/Multimodal 2022. 1. 21. 16:48

    이번 포스트에서는 multi modal network를 구현하는 방법에 대해 이야기하도록 하겠다. 물론 fusion 방법은 연구자의 코딩 방식에 따라 달라지겠지만 대표적으로 사용하는 방법들은 오늘 다룰 논문에 잘 소개되어있다. 

     

    Fusion of medical imaging and electronic health records using deep learning: a systematic review and implementation guidelines

     

    1. Introduction

    실제 사람과 같이 automated detection 및 classification 시스템은 의료 영상 데이터와 EHR(electronic health record)로부터의 clinical한 데이터를 같이 사용했을 때 더 좋은 성능을 보이며 clinical적으로도 유의미하다.

    (1) Terminology and strategies in fusion

    Data fusion : 더욱더 복잡하고 complementary한 정보를 추출하기 위해 여러 modality로부터 얻은 데이터들을 서로 혼합하는 작업을 의미한다.

    아래 그림은 3개의 주요 fusion strategy를 나타낸다 : early, joint, and late fusion. 이에 대해 하나씩 차근차근 살펴보겠다.

    Early Fusion : feature level fusion으로 더 잘 알려져 있으며, 다수의 input modality를 single ML model에 feed하기 전 하나이 feature vecture로 합하는 과정을 일컫는다. (figure의 early fusion 참조) Input modality는 여러 방법으로 합쳐질 수 있는데 예를들어 concatenation, pooling 혹은 gated unit을 적용하는 것이 있다. Original feature들을 fusing하는 것은 early fusion type 1을 말하며, manual하게 뽑아내거나 imaging analysis software등을 사용하여 추출해낸 feature를 fusing하는 것을 early fusion type 2라고 말한다. 

    Joint Fusion : intermediate fusion이라고도 불리며 final model의 input으로 NN의 중간지점 layer들로부터 얻어낸 learned feature representation과 다른 modality로부터의 feature를 합하는 과정을 말한다. early fusion과 비교했을 때 가장 다른 점은 loss가 학습과정에 있어서 feature 추출 단계에도 back propagation을 일어나므로 매 training iteration마다 더 좋은 feature representation을 생성한다는 점이다. 모든 modality에 대해서 feature extraction이 이뤄질 경우 joint fusion type 1이라 부르며 몇몇만 이뤄질 경우에는 joint fusion type 2라 한다.

    Late Fusion : 종종 decision-level fusion이라 많이 알려져 있으며 final decision을 위해 여러 모델로부터 prediction을 leveraging해주는 과정을 말한다. 서로 다른 modality는 독립적인 model들을 사용하여 학습이 이루어지며 최종 결정은 aggregation function을 이용하여 그렇게 얻어진 각각의 prediction들의 결합이다. Aggregation function들로는 averaging, majority voting, weighted voting, meta-classifier based on the predictions from each model 등이 있다. (우리가 흔히 쓰는 voting 앙상블 계열을 생각하면 편할 것이다.) 어떤 aggregation function을 사용할건지는 경험적으로 얻어지며 application과 input modality에 따라 다르다.

     

    2. Results

    study에 상관없이 모든 late fusion들은 향상이 있었다. 논문 저자들은 joint fusion이 가장 성능이 좋을 것이라 추측하지만 (그리고 나 역시도 그랬지만..) 실제로는 multiple modality로부터 feature vector들을 concatenate되었을 때, high-dimensional vector들이 생성되어 ML model이 overfitting하게 될 확률이 높아지므로 매우 많은 input sample이 없는 이상 late fusion이 가장 그나마 도움이 되는 것으로 보인다. ML 세계에서는 이를 " curse of dimensionality"라고들 부른다.

    댓글

Designed by Tistory.