Home · 참고자료 · Medical Foundation Model 평가 방법론
Deep Research · 2026-04-19 · 11 Sources

단답식을 넘어,
실제 진료를 닮은 평가

의료 파운데이션 모델(Medical Foundation Model, F-MFM) 평가의 패러다임이 2024-2026년을 기점으로 재편되고 있습니다. USMLE 객관식을 외우는 LLM이 98점을 받아도 실제 임상 질문의 2/3는 벤치마크가 커버하지 못하는 영역(치료 의사결정·환자 커뮤니케이션·문서화)임이 드러났고, HealthBench · MedHELM · MedAgentBench · AMIE · CRAFT-MD 등 실제 의료환경을 시뮬레이션하는 2세대 벤치마크가 급속히 등장했습니다. 이 페이지는 FrailMIND 14B F-MFM 평가 전략 수립을 위한 체계적 정리입니다.

📊 11편 1차 문헌
🏛️ OpenAI · Stanford · Google · NEJM
📅 2024-2026 · 최근 논문 중심
01. The Gap

왜 2세대 벤치마크인가 — 지식-실무 격차

2025년 발표된 MedArena(Stanford HAI)와 JMIR 리뷰가 수천 건의 실제 임상의 질의를 분석한 결과, 기존 MCQA 벤치마크(MedQA, MMLU-Medical)가 커버하는 "의학 지식·근거" 영역은 실제 임상 질의의 약 1/3에 불과했고, 대다수는 치료 의사결정·환자 커뮤니케이션·문서화 등 맥락이 필요한 영역이었습니다.

📏 Knowledge-Practice Gap

지식 기반 벤치마크 평균 정확도 70–79% vs. 실무 기반 벤치마크 46–70%. 최대 24%p의 성능 차이 (JMIR 2025).

💬 Single-turn의 한계

실제 임상 대화의 ~20%가 multi-turn인데, 기존 벤치마크는 단일 질문만 평가. MedQA를 sequential 형식으로 풀면 정확도가 1/10 이하로 급락 (AgentClinic, 2024).

🎯 Open-ended 실패

MedQA 객관식에서 78.6% → 동일 내용 open-ended 생성 평가로 전환 시 큰 폭 하락. 실제 임상은 객관식이 아님.

⚠️ 의사 선호는 "정확도"가 아니다

MedArena 실측 결과 임상의는 깊이·명료성을 raw 정확도보다 더 자주 언급. 벤치마크 1위 ≠ 임상 유용성 1위.

핵심 시사. 2024년 이후 의료 LLM 평가의 중심 질문이 바뀌었습니다. "이 모델이 USMLE를 통과할 수 있나?"에서 "이 모델이 실제 진료 환경에서 안전하고 유용한가?"로. 평가는 단일 숫자(점수)가 아니라 다축(multi-axis) 루브릭시뮬레이션 환경을 요구합니다.
02. First Generation

1세대 — 시험 기반 객관식 평가

2019-2023년 의료 LLM 붐을 이끈 1세대 벤치마크는 공인 의학 시험 문제를 그대로 사용했습니다. 객관성 확보와 자동 채점이 용이한 장점이 있지만, "단답식·단일턴·맥락 없음"이라는 구조적 한계를 갖습니다.

벤치마크 데이터 출처 포맷 한계
MedQAUSMLE Step 1-3 (미국)MCQ 5지선다암기 중심, 임상 맥락 부족
MedMCQA인도 AIIMS·NEET-PGMCQ데이터 오염 가능성, open-ended ×
PubMedQAPubMed 초록Yes/No/Maybe3지선다, 실제 진료 무관
MMLU-Medical다양한 의학 분야MCQ일반 지식 평가, 추론 과정 미평가
MedXpertQA (ICML 2025)전문의 시험 · 기존 MCQ 고난이도 필터링MCQ · 추론 강화여전히 MCQ, 대화 무관 — 단 추론 chain 평가
의미. 1세대 벤치마크는 여전히 레퍼런스 체크로 유용합니다 — 의학 기본 지식 하한선을 검증하고 모델 간 비교를 가능하게 합니다. 하지만 "MedQA 90%"와 "임상 배포 적합성"은 다른 문제이며, 이것이 2세대 등장의 원인입니다.
03. Second Generation

2세대 — 실제 임상 환경 반영 벤치마크

2024-2026년 등장한 2세대 벤치마크는 대화·루브릭·에이전트·EHR 시뮬레이션을 결합합니다. 각 벤치마크가 "어떤 현실"을 반영하는지 서로 다르지만, 공통적으로 MCQ를 벗어나 open-ended · multi-turn · multi-axis 평가를 지향합니다.

💡 각 벤치마크에 📎 자료 버튼으로 원문 PDF · 슬라이드 · 코드 · 후속 분석 링크를 추가할 수 있습니다 (localStorage)
Rubric · Multi-turn OpenAI · 2025.05

HealthBench

Evaluating LLMs Towards Improved Human Health
의사·환자 멀티턴 대화 5,000건에 대해, 262명의 의사가 작성한 48,562개 rubric 기준으로 평가. 7개 테마(전문성별 맞춤 소통, 응답 깊이, 응급 의뢰, 건강 데이터, 글로벌 헬스, 불확실성 하 응답, 맥락 추구)로 분류.
Scale 5,000 대화
Physicians 262명 · 60개국
Rubrics 48,562개 criteria
Hard 버전 최고 32% (2025)
임상 반영 포인트각 criterion이 점수 가중치를 가지며, 의사 판단의 상대적 중요도를 반영. 기존 MCQ의 "맞다/틀리다"를 넘어 "이상적 응답의 구성 요소"를 평가.
openai.com/index/healthbench →
Holistic · Multi-task Stanford CRFM · Nature Medicine 2025

MedHELM

Holistic Evaluation of LLMs for Medical Tasks
Stanford HELM 프레임워크의 의료 확장판. 29명의 임상의가 검증한 5 카테고리 × 22 서브 × 121 태스크 택소노미. 기존 17개 + 신규 18개 = 35개 벤치마크 스위트 종합. 단일 수치가 아닌 비용-성능 매트릭스로 결과 제공.
Categories 5개 · 121 tasks
Benchmarks 35개 통합
Judge ICC 0.47 (vs 전문가 0.43)
Top model DeepSeek R1 (66%)
임상 반영 포인트결정지원·문서생성·환자소통·연구·행정 5영역 고르게 평가. "벤치마크 1위"라는 오해를 방지하는 것이 설계 철학.
crfm.stanford.edu/helm/medhelm →
Agent · EHR Sim Stanford ML · NEJM AI 2025

MedAgentBench

Virtual EHR Environment for Medical LLM Agents
FHIR 호환 가상 EHR 환경에서 LLM을 도구(API)와 함께 평가. 100명 환자 · 700,000+ 데이터 요소 · 임상의 작성 300 태스크. Claude 3.5 Sonnet · o3-mini · GPT-4o · Gemini 2.0 Pro 등 12개 SOTA 모델 비교.
Patients 100명 (가상)
Tasks 300 clinically-derived
Data elements 700,000+
Standard FHIR API 호환
임상 반영 포인트에이전트가 실제 EHR에 질의·기록·주문하는 행동을 평가. AX-Ready MCP Agent Mesh, FrailMIND의 KR-CDI/FHIR 설계와 직접 연결.
NEJM AI · DOI:2500144 →
Multi-agent · Multimodal arXiv 2024.05 · ICLR 2025

AgentClinic

Simulated Clinical Environment with 4 AI Agents
Doctor · Patient · Measurement · Moderator 4개 에이전트 간 최대 20턴 대화. 9개 전문과 · 7개 언어. 두 버전: AgentClinic-MedQA(대화만) + AgentClinic-NEJM(멀티모달 영상·대화). 동일 케이스를 MCQ로 풀 때 대비 정확도가 1/10로 급락 — 순차 의사결정의 어려움을 수치화.
Agents 4개 (Doc·Pt·Meas·Mod)
Turns 최대 20턴
Specialties 9개
Languages 7개
임상 반영 포인트순차적 임상 추론(병력청취→검사→감별진단)을 완전 시뮬레이션. MedQA 78% 모델이 AgentClinic에서 한자릿수로 떨어지는 현상을 재현 가능.
agentclinic.github.io →
Dialogue · History-taking Rajpurkar · Nature Medicine 2025

CRAFT-MD

Conversational Reasoning Assessment for Testing in Medicine
멀티에이전트 대화 시뮬레이션으로 clinical LLM의 병력청취·정보 통합·진단 도출 능력 평가. GPT-4 · GPT-3.5를 피부과 사례에 적용해 기존 평가에서 놓친 한계 노출.
Format 4-agent 대화
Focus History-taking · Diagnosis
Publication Nature Medicine 2025
Code rajpurkarlab/craft-md
임상 반영 포인트"문진을 어떻게 이끄는가"를 측정하는 드문 벤치마크. FrailMIND의 노쇠 대화형 평가(구강노쇠·영양·약물 문진) 설계에 참조.
Nature Medicine · 03328-5 →
Diagnostic Dialogue Google DeepMind · Nature 2025

AMIE

Articulate Medical Intelligence Explorer
Self-play 시뮬레이션으로 학습한 진단 대화 AI. 무작위 더블블라인드 크로스오버 연구 — 20명 1차의료 의사 vs AMIE가 159개 케이스를 텍스트 상담으로 수행. 전문의 평가 30/32 축, 환자 평가 25/26 축에서 AMIE 우세.
Cases 159 (CA·UK·IN)
Physicians 20 (PCP)
Axes 32 (history · dx · mgmt · comm · empathy)
Study type RCT crossover · Nature 2025
임상 반영 포인트평가 자체가 "벤치마크"라기보단 RCT 설계. 벤치마크 점수가 아닌 의사/환자 배우 만족도를 multi-axis로 측정 — AI 평가의 게임 체인저.
Nature · s41586-025-08866-7 →
Real-world · Preference Stanford HAI · 2025

MedArena

Medicine in the Wild — Clinician Preferences
임상의가 자기 업무 질의로 직접 여러 LLM을 비교하는 Chatbot Arena식 플랫폼. 정답 없이 선호도 랭킹만 집계. 의사 질문의 2/3가 기존 MCQ가 커버하지 못하는 영역임을 데이터로 증명 — 치료 의사결정·소통·문서화 중심.
Top (2025.04) Gemini 2.0 Flash Thinking
Multi-turn 20% conversations
Preference 깊이·명료성 > 정확도
Access 무료 공개
임상 반영 포인트정답 없이 "실제 사용자가 어떤 답을 선호하는가"를 생체 측정. MedQA 1위가 MedArena 1위가 아닐 수 있음을 구조적으로 드러냄.
Stanford HAI →
Expert MCQ · Reasoning Tsinghua · ICML 2025

MedXpertQA

Expert-Level Medical Reasoning Benchmark
기존 MCQA가 너무 쉬워진 문제를 해결. 전문의 시험 문제를 엄격한 필터링과 증강으로 난이도 상향. 단순 정답만이 아니라 추론 과정(reasoning chain)을 부분적으로 평가.
Source Specialty board exams
Format MCQ + reasoning trace
Conference ICML 2025
Code TsinghuaC3I/MedXpertQA
임상 반영 포인트MCQ의 간편함을 유지하며 난이도를 실제 전문의 수준으로 상향. 1.5세대에 해당. 추론 모델(o1·DeepSeek R1)이 최상위권.
arXiv:2501.18362 →
04. Methodology

평가 방법론 — Rubric-based · LLM-as-Judge

2세대 벤치마크의 공통 엔진은 물음-루브릭-채점자 3요소입니다. 물음은 실제 임상 질의이고, 루브릭은 전문가가 정의한 다축 기준이며, 채점자는 인간 + LLM 혼합입니다.

Rubric-based 평가의 3대 축

  • Factuality — 의학적 정확성, 근거와의 일치
  • Clinical Relevance — 임상 의사결정에의 유용성
  • Conciseness — 임상 현장에서의 가독성·효율

HealthBench는 여기에 7개 테마 × 각 대화별 맞춤 criteria를 얹어 가중 채점합니다.

LLM-as-a-Judge의 효용과 한계

MedHELM은 LLM-jury가 전문가와 ICC = 0.47 일치를 달성해 전문가 간 일치도(0.43)를 넘어섰다고 보고합니다. BERTScore(0.44)·ROUGE-L(0.36) 등 전통 자동 지표보다 의미있게 우수합니다.

주의. 의료 도메인에서는 LLM-human 일치도가 64-68%로 급락하며, 전문가 간 일치도(~72-75%)보다 낮습니다. 단일 LLM 판정의 bias·reproducibility 문제를 완화하기 위해 최근 연구는 diverse-model panel + criterion-wise separate calls를 권고합니다 (halo effect 방지).

Human-in-the-Loop

CLEVER(Clinical LLM Evaluation by Expert Review) 같은 프레임워크는 hybrid를 지향 — AI 자동 사전 스크리닝 + 전문가 최종 검증. HealthBench도 HealthBench Consensus(34개 핵심 기준 전문가 합의) 서브셋을 별도 제공합니다.

05. Safety & Hallucination

안전·환각 — Med-HALT 계열

의료 도메인에서 환각(hallucination)은 곧 위해입니다. Med-HALT · MedHallBench · MedHallu 등 전용 평가가 등장했고, 놀랍게도 의료 특화 모델이 일반 모델보다 환각이 많다는 MIT 연구 결과가 2025년 보고되었습니다.

Med-HALT 핵심 테스트

  • FCT (False Confidence Test) — 제시된 "정답"이 실제 틀릴 수 있을 때 모델이 구분해내는가
  • NOTA (None Of The Above) — 모든 보기가 오답인 상황을 인식하는가

MIT 2025 — 역설적 결과

MIT Media Lab 연구진이 7개 범용 + 4개 의료 특화 파운데이션 모델을 7개 환각 태스크에 평가한 결과:
• 범용 모델 환각 없는 응답률: 중앙값 76.6%
• 의료 특화 모델: 중앙값 51.3%
Chain-of-Thought 추론이 86.4% 비교 케이스에서 환각을 유의미하게 감소

이는 의료 도메인 파인튜닝이 오히려 모델의 "모르는 것을 모른다"는 능력을 약화시킬 수 있음을 시사하며, FrailMIND의 14B F-MFM 설계에서 도메인 특화와 범용 능력 유지의 균형이 중요함을 보여줍니다.

06. Korean Context

한국어 맥락 — KorMedMCQA 계열

한국어 의료 LLM 평가는 KorMedMCQA(2024)가 처음 본격 체계를 제시했고, 최근 KorMedMCQA-V(2026) 멀티모달 확장이 등장했습니다. 다만 여전히 객관식 중심이며, 한국어 실제 임상 대화·멀티턴 시뮬레이션 벤치마크는 공백입니다.

  • KorMedMCQA (2024-2026) — 2012-2024 한국 의료 국시 문제. 59개 LLM 평가, o1-preview 92.72, Qwen2.5-72B 78.86. CoT로 최대 4.5% 향상.
  • KorMedMCQA-V (2026) — 1,534 문항 · 2,043 이미지. Gemini-3.0-Pro 96.9%, Korean-specialized VARCO-VISION-2.0-14B는 43.2% (한국 특화 모델의 공백).
  • Korean Medical Preference Dataset (2025 PMC) — 자동 파이프라인 기반 선호 데이터 구축 연구 진행 중.
공백. 한국어 기반 HealthBench·MedAgentBench·AMIE급 벤치마크는 아직 없습니다. FrailMIND의 노쇠 특화 대화 벤치마크 6종(F-MFM 2 + 예측 1 + 서비스 3)은 한국어 의료 멀티턴 평가의 국내 최초 체계가 될 가능성이 큽니다.
07. Real-world Deployment

실제 배포 평가 — NEJM AI Pragmatic Trial

2025년 NEJM AI가 제시한 A Novel Playbook for Pragmatic Trial Operations는 벤치마크를 넘어 실제 임상 배치 환경에서의 지속 평가 프레임워크입니다. Ambient AI Scribe를 대상으로 실증된 이 접근은 벤치마크 → 파일럿 → 프래그머틱 RCT의 3단 파이프라인을 제안합니다.

Playbook의 4대 혁신

  • Embedded pragmatic trial design — 실제 워크플로우 내 랜덤화
  • Human factors engineering — SEIPS 프레임워크 통합
  • Compliance-driven feedback loop — 준수율 모니터링 → 학습
  • Real-time monitoring — FHIR 통합 대시보드, 문서화 정확도 추적

Drift 감지에는 difference-in-differences 분석time in notes, work outside work, utilization 3개 프로세스 지표에 적용. 실측 utilization 중앙값 65.4% (IQR 50.6-84.0%) — 템플릿 재설계 이후 정확도 회복.

시사. FrailMIND의 2단계 6개 지역 실증(2028-2029)은 이 플레이북을 준용하면 벤치마크 점수 + 실사용 KPI + drift 모니터링을 통합한 평가가 가능합니다. 이는 HIMSS CCMM 인증 준비와도 직접 연결됩니다.
08. FrailMIND Application

FrailMIND 적용 — 14B F-MFM 평가 전략

이상의 2세대 벤치마크 지형을 FrailMIND 과제에 매핑하면, 평가는 4개 레이어로 설계하는 것이 합리적입니다. 이는 과제 제안서의 "노쇠 위험도 벤치마크 6종" 설계와도 정합합니다.

레이어 목적 FrailMIND 적용 참조 벤치마크
L1 · 지식 의학 기본 지식 하한선 F-MFM SOTA 입증 — 한국어 의료 MCQA KorMedMCQA · MedQA · MedXpertQA
L2 · 대화 노쇠 병력청취·환자 소통·안전 대응 HealthBench 방식 한국어 노쇠 대화 5,000건 + rubric HealthBench · CRAFT-MD · AMIE
L3 · 에이전트 KR-CDI/FHIR 연동 EHR 상호작용 MCP Agent Mesh 환경 시뮬레이션, 처방·조회 정확도 MedAgentBench · AgentClinic
L4 · 실증 6개 지역 배치, 실사용자 만족·drift NEJM AI Pragmatic Playbook 준용, HIMSS CCMM 인증 NEJM AI Pragmatic Trial · MedArena
차별화 포인트. FrailMIND는 노쇠·고령자 도메인에 특화된 세계 최초 한국어 2세대 벤치마크를 만들 수 있는 위치에 있습니다. AgentClinic/HealthBench 등이 일반 내과·응급 시나리오 중심인 것에 비해, FrailMIND는 구강노쇠·VFSS·약물 FOAM-R·PHM 대시보드라는 고유 임상 시나리오를 포함하므로 과제 산출물 중 "노쇠 위험도 벤치마크 6종"은 단순한 내부 평가가 아니라 국제 공개 가능한 2세대 벤치마크로 발전할 잠재력이 있습니다.

운영 권장사항

  1. 1차년도 — L1·L2 기본 벤치마크 셋업. KorMedMCQA 기준선 달성, HealthBench 한국어 노쇠 버전 설계 착수
  2. 2-3차년도 — L2·L3 벤치마크 본격 개발. F-MFM·2B 모델이 자체 벤치마크에서 SOTA 입증. MedAgentBench 유사 FHIR 환경 구축
  3. 4-5차년도 — L4 프래그머틱 트라이얼. 성남·6개 지역에서 NEJM AI 플레이북 방식으로 drift·효과 추적. HIMSS CCMM 4단계 인증
  4. 외부 공개 — 벤치마크셋 TTA·AIIA 인증 취득 후 GitHub 공개 (논문 출판과 동시). 한국어 의료 AI 평가 생태계 기여
Sources

출처

  1. OpenAI (2025). "HealthBench: Evaluating Large Language Models Towards Improved Human Health." openai.com/index/healthbench · arXiv:2505.08775
  2. Bedi S et al. (2025). "Holistic evaluation of large language models for medical tasks with MedHELM." Nature Medicine. DOI:s41591-025-04151-2 · CRFM HELM Leaderboard
  3. Stanford ML Group (2025). "MedAgentBench: A Realistic Virtual EHR Environment to Benchmark Medical LLM Agents." NEJM AI. DOI:AIdbp2500144
  4. Schmidgall S et al. (2024). "AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments." agentclinic.github.io · arXiv:2405.07960
  5. Johri S et al. (2025). "An evaluation framework for clinical use of large language models in patient interaction tasks (CRAFT-MD)." Nature Medicine. DOI:s41591-024-03328-5
  6. Tu T et al. (2025). "Towards conversational diagnostic artificial intelligence (AMIE)." Nature. DOI:s41586-025-08866-7
  7. Chen L et al. (2025). "MedArena: Comparing LLMs for Medicine in the Wild." Stanford HAI. hai.stanford.edu/news/medarena · arXiv:2603.15677
  8. Zuo Y et al. (2025). "MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding." ICML 2025. arXiv:2501.18362
  9. Pandit A et al. (2023-2025). "Med-HALT: Medical Domain Hallucination Test for Large Language Models." medhalt.github.io
  10. MIT Media Lab (2025). "Medical Hallucination in Foundation Models and Their Impact on Healthcare." medRxiv:2025.02.28
  11. Kweon S et al. (2024-2026). "KorMedMCQA · KorMedMCQA-V: Korean Medical Licensing Examination Benchmarks." arXiv:2403.01469 · arXiv:2602.13650
  12. Small WR et al. (2025). "A Novel Playbook for Pragmatic Trial Operations to Monitor and Evaluate Ambient AI in Clinical Practice." NEJM AI. DOI:AIdbp2401267
Note on recency. 본 조사는 2026-04-19 기준 공개된 문헌을 바탕으로 정리되었습니다. 의료 LLM 평가 분야는 6개월 단위로 새 벤치마크가 출현 중이므로 FrailMIND 평가 전략 수립 시점에 arXiv cs.CL · Nature Medicine · NEJM AI · NPJ Digital Medicine의 최신 호를 재확인 권장.