[2603.00889] CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

논문 정보

날짜: 2026-03-03
카테고리: -
우선순위 점수: 2.767

핵심 요약

CHIMERA는 8개 과학 분야와 1,000개 이상의 세부 주제를 아우르는 9,000개의 고품질 합성 추론 데이터셋입니다. 자동화된 파이프라인을 통해 긴 Chain-of-Thought 경로를 생성하고 검증하여 데이터 구축의 병목 현상을 해결했습니다. 이를 통해 학습된 4B 모델은 GPQA 및 AIME 등 주요 벤치마크에서 훨씬 거대한 모델들과 대등한 성능을 보였습니다.

학습자 관점 포인트

우리 팀 영향: 적은 양의 고품질 합성 데이터만으로도 소형 모델의 복합 추론 능력을 비약적으로 향상시킬 수 있는 데이터 구축 전략을 참고할 수 있습니다.
권장 액션: 실험
액션 근거: 9K라는 소규모 데이터셋으로 대형 모델급 성능을 낸 효율적인 합성 데이터 생성 및 검증 로직을 내부 모델 학습에 적용해볼 가치가 큽니다.

원문 링크

arXiv: https://arxiv.org/abs/2603.00889
Hugging Face Papers: https://huggingface.co/papers/2603.00889

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.02138] OmniLottie: Generating Vector Animations via Parameterized Lottie Tokens [2603.01562] RubricBench: Aligning Model-Generated Rubrics with Human Standards

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크