AIは眼科医の緑内障診断に影響を与える

近年、人工知能(AI)による画像診断アルゴリズムは眼科疾患の診断精度を向上させているが、医師の判断に影響を及ぼし、バイアスを引き起こす可能性もある。今回、眼底写真に基づく緑内障診断において、AIの診断結果は医師の判断に影響を及ぼすという研究結果が報告された。特に、経験の浅い医師ほどAIの診断結果の影響を受けやすいことが示されたという。研究は、山梨大学医学部眼科学教室の柏木賢治氏らによるもので、詳細は「PLOS One」に4月16日掲載された。
緑内障は自覚症状が少ない場合が多く、疾患による障害は不可逆的であるため、早期発見が極めて重要だ。近年、緑内障の診断においてAIが有用であることを示す研究報告が多数発表されている。しかし、AIの利用が拡大するにつれ、眼科医の診断がAIの結果に影響を受け、診断を誤ってしまう可能性も懸念される。実際、皮膚病変の診断においてAIが誤診した際、その診断に異議を唱える皮膚科医は少なかったとの報告がある。一方、緑内障に関しては、AIの診断が医師の判断に及ぼす影響について十分な検証が行われてこなかった。こういった背景を踏まえ、著者らは眼底写真を用いた緑内障の検出および重症度評価に対するAIの影響を検討した。

郵便番号を入力すると、お近くの治験情報を全国から検索できます。
本研究では、2021年1~6月の間に山梨大学医学部附属病院眼科を受診した40~70歳の患者の眼底写真が用いられた。画像は各30枚ずつ正常眼、軽度緑内障眼、中等度緑内障眼、重度緑内障眼の4つの重症度に振り分けられた。画像評価には45名の眼科専門医(臨床経験5年以上)および眼科研修医(臨床経験2年以内)が参加した。
45名の眼科医は、まず4つの重症度分類に属する画像(各分類30枚、計120枚)をランダムに提示され、その重症度を評価した。この試験より少なくとも1週間後に、2回目の試験を行った。2回目の試験では眼底画像の横に「AIによる診断結果」を追記し、同様に重症度の評価を行った。この「AIによる診断結果」には意図的に誤った情報が30%含まれた。群間比較の有意水準はP<0.05とした。
全参加者の1回目の試験の正答率は48.4±24.8%だったが、2回目の試験では59.6±20.3%となり、その正答率は大幅に改善された(P<0.001)。正答率の改善は、専門医(8.6±11.4%)よりも研修医(14.2±19.0%)で大幅に大きくなっていた(P=0.04)。
次に、「AIによる診断結果」の正誤別の正答率を比較した。全参加者のAI診断が正しかった場合の正答率(63.9±20.6%)は、誤っていた場合(47.9±26.6%)よりも大幅に高くなっていた(P<0.0001)。研修医と専門医に分けて比較したところ、研修医では、AI診断が正しかった場合の正答率(66.5±18.5%)は、誤っていた場合の正答率(41.5±18.5%)よりも大幅に高かった(P<0.0001)。一方専門医では、AI診断が正しかった場合と誤っていた場合の正答率の変化は研修医よりも軽度であった(62.3±22.4% vs 52.7±27.1%、P=0.017)。
また参加者の画像診断にかかる時間を調べたところ、参加者全体で1回目の試験(10.8±4.3秒)よりも2回目の試験(9.0±2.5秒)で有意に短縮されていた(P=0.0005)。この傾向は、専門医より研修医で顕著に認められた。AIが正答を示した場合(8.2±2.0秒)に比べて誤答を示した場合(9.7±2.7秒)の方が回答時間は有意に長かった(P=0.003)。
本研究の結果について著者らは、「今回の結果から、AIによる診断が眼科医の診断に影響を与える可能性が示唆された。AI診断の正誤に関わらず、研修医の診断にかかる時間は専門医よりも短かった。これは、研修医がAIの判断に頼りがちになることを示しているのかもしれない。医師は、AIの診断システムが完全ではないことを十分に理解したうえで、適切に活用することが重要である」と述べている。

治験・臨床試験は新しいお薬の開発に欠かせません。治験や疾患啓発の活動を通じてより多くの方に治験の理解を深めて頂く事を目指しています。治験について知る事で治験がより身近なものになるはずです。