Skip to main content

논문 정보

  • 날짜: 2026-04-08
  • 카테고리: -
  • 우선순위 점수: 1.267

핵심 요약

기존 LLM 에이전트의 추론 강화 방식이 오히려 가치 편향을 심화시키고 다양성을 해친다는 점을 발견하고, 이를 해결하기 위해 S-O-R 모델 기반의 CVA 아키텍처를 제안합니다. CVA는 행동 생성과 인지 추론을 분리하며, 실제 인간 데이터를 학습한 Value Verifier를 통해 동적인 가치 활성화를 모델링합니다. 110만 건 이상의 실제 상호작용 데이터를 포함한 CVABench 실험 결과, 행동 충실도와 해석 가능성 측면에서 기존 베이스라인을 능가했습니다.

학습자 관점 포인트

  • 우리 팀 영향: 에이전트의 행동 다양성과 가치 정렬을 위해 추론과 가치 검증을 분리하는 아키텍처 설계 방식을 참고할 수 있습니다.
  • 권장 액션: 실험
  • 액션 근거: 프롬프트 기반 추론의 한계를 지적하고 실제 인간 가치 체계를 반영한 새로운 구조를 제안하여 성능 향상을 입증했기 때문입니다.

원문 링크

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.