[2604.04443] DeonticBench: A Benchmark for Reasoning over Rules

논문 정보

날짜: 2026-04-09
카테고리: -
우선순위 점수: 0.7

핵심 요약

법률, 세금, 정책 등 복잡한 규칙 기반의 의무, 허용, 금지 사항을 추론하는 DeonticBench 벤치마크를 제안합니다. 언어 모델의 직접 추론 방식과 Prolog를 활용한 기호 논리적 해결 방식을 모두 지원하며 총 6,232개의 태스크를 포함합니다. 최신 LLM들도 특정 고난도 데이터셋에서 50% 미만의 성능을 보이며, 강화학습을 통한 개선 시도에도 불구하고 여전히 해결이 어려운 과제로 남아있습니다.

학습자 관점 포인트

우리 팀 영향: 복잡한 도메인 규칙을 기호 논리로 변환하여 해결하는 워크플로우를 통해 법률 및 정책 준수 관련 서비스의 정확도를 높이는 데 참고할 수 있습니다.
권장 액션: 실험
액션 근거: 자연어 규칙을 실행 가능한 Prolog 코드로 변환하여 추론하는 방식이 복잡한 비즈니스 로직 해결에 유효한 접근법인지 검증이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2604.04443
Hugging Face Papers: https://huggingface.co/papers/2604.04443

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2604.06427] The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning [2604.07023] MARS: Enabling Autoregressive Models Multi-Token Generation

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크