[2602.23165] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

논문 정보
핵심 요약
학습자 관점 포인트
원문 링크

논문 정보

날짜: 2026-02-27
카테고리: -
우선순위 점수: 0.0

핵심 요약

DyaDiT는 2인 대화 상황에서 상호 작용 역학을 고려하여 자연스러운 제스처를 생성하는 멀티모달 디퓨전 트랜스포머 모델입니다. 기존의 단일 화자 방식과 달리 양측의 오디오 신호와 사회적 맥락 토큰을 결합하여 상황에 적합한 동작을 생성하며, 모션 딕셔너리를 통해 동작의 사전 정보를 인코딩합니다. 사용자 평가 결과, 기존 방식보다 객체 지표와 사용자 선호도 면에서 우수한 성능을 보였습니다.

학습자 관점 포인트

우리 팀 영향: 디지털 휴먼 간의 상호작용이나 대화형 AI의 비언어적 표현력을 높이는 기술적 토대로 활용될 수 있습니다.
권장 액션: 실험
액션 근거: 양방향 오디오와 사회적 맥락을 반영한 제스처 생성 방식이 기존 단일 화자 모델보다 고도화된 상호작용을 가능케 하므로 성능 검증이 필요합니다.

원문 링크

arXiv: https://arxiv.org/abs/2602.23165
Hugging Face Papers: https://huggingface.co/papers/2602.23165

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2602.22045] DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain [2602.20981] Echoes Over Time: Unlocking Length Generalization in Video-to-Audio Generation Models

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

[2602.23165] DyaDiT: A Multi-Modal Diffusion Transformer for Socially Favorable Dyadic Gesture Generation

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

00. 시작하기

01. AI IDE

02. IDE 확장/플러그인

03. CLI/멀티 플랫폼

04. 에이전트 하네스

05. AI 웹 빌더

06. 워크플로우 플랫폼

08. 일일 리뷰 리포트

07. 논문 트렌드

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크