ケーススタディ

臨床データから心疾患の有無を予測

#予防医療 #心疾患 #AI 活用

心疾患は全世界で主要な死因の一つであり、早期の診断とリスクの評価は健康ケアにおいて極めて重要である。KaggleのデータベースをもとにMulti-Sigmaを用いて、心疾患の予測モデルを作成し、臨床データから心疾患の有無の予測を行った。その結果、サポートベクタマシンや決定木分析よりも高い精度での予測に成功した。またMulti-Sigmaで要因分析を実施することにより、臨床データの各特徴量の寄与度も可視化することができた。
データ元URL:https://www.kaggle.com/code/desalegngeb/heart-disease-predictions

提供されたデータの内容

下記6種類の数値型特徴量と8種類のカテゴリ型特徴量を持つ303件の臨床データ。

数値型特徴量

  • 年齢(歳)
  • 安静時血圧(mmHg)
  • 血清コレステロール(mg/dl)
  • 最大心拍数(beats/minute)
  • 運動によるST低下
  • 蛍光透視によって着色された主要血管数(本)

カテゴリ型特徴量

  • 性別(0:女性、1:男性)
  • 胸痛の種類(0:120mg/dl未満、1:120mg/dl以上)
  • 心電図の結果(0:正常、1:ST-T波異常、2:左室肥大の可能性)
  • 労作性狭心症の既往歴(0:なし、1:あり)
  • STの傾き(0:上昇、1:平坦、2:下降)
  • サラセミア(0:固定欠陥、1:正常、2:可逆欠陥)
  • 心疾患の有無(0:なし、1:あり)

Multi-Sigmaでの予測結果

上記データの特徴量のうち、心疾患の有無以外の特徴量を入力データ(説明変数)とし、心疾患の有無を出力データ(目的変数)として、242件の臨床データを用いてMulti-SigmaでAI学習を行い、61件のケースについてAI予測を行ったところ、91.8%の正解率で心疾患の有無の予測に成功した。
61件の予測ケースのうち、真陽性が30件、真陰性が26件、偽陽性が3件、偽陰性が2件であった(表1)。AUCの値は0.989であった。

実測陰性実測陽性
予測陽性3件30件
予測陰性26件2件
表1:Multi-Sigmaによる予測結果
図1:実測値
図2:ROC曲線とAUCの値

他手法との比較

同じ予測をサポートベクターマシン(SVM)を用いて行ったところ正解率は82.0%であり(表2)、決定木分析による予測の正解率は77.0%であった(表3)。Multi-Sigmaによる予測の正解率91.8%は、これらの手法よりも高いものであった。

実測 陰性実測 陽性
予測 陽性5件26件
予測 陰性24件6件
表 2:サポートベクタマシンによる予測結果
実測 陰性実測 陽性
予測 陽性6件24件
予測 陰性23件8件
表 3:決定木分析による予測結果

Multi-Sigmaを使用した要因分析

臨床データのうちどの項目が心疾患の有無に寄与しているのかをMulti-Sigmaの要因分析機能をつかって解析した(図3)。心疾患の有無について正の方向の寄与が最大なのは最大心拍数であることが分かった。最大心拍数が高い患者ほど心疾患が起こりやすいことを示している。逆に、負の方向の寄与が最大なのは運動時の心電図のST低下であった。ST低下が大きい患者ほど心疾患が起こりにくいことを示している。また、正の方向と負の方向の双方で寄与が大きかったのは蛍光透視によって着色された主要血管数であった。

図3:要因分析の結果