[2603.02684] HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

핵심 요약

HateMirage는 허위 정보와 결합된 미묘하고 간접적인 혐오 표현을 탐지하기 위해 구축된 새로운 다차원 데이터셋입니다. 팩트체크된 가짜 뉴스와 관련된 유튜브 댓글 4,530개를 수집하여 대상, 의도, 사회적 영향이라는 세 가지 차원의 주석을 제공합니다. 벤치마크 결과, 설명의 품질은 모델의 크기보다 사전 학습 데이터의 다양성과 추론 중심 데이터의 유무에 더 큰 영향을 받는 것으로 나타났습니다.

학습자 관점 포인트

우리 팀 영향: 미묘한 혐오 표현과 허위 정보의 상관관계를 분석하는 다차원 프레임워크를 통해 보다 정교한 AI 윤리 및 안전 가드레일 구축에 기여할 수 있습니다.

권장 액션: 실험

액션 근거: 기존의 단순 혐오 탐지를 넘어 허위 서사와 결합된 복합적인 유해 콘텐츠를 식별하는 다차원 주석 체계의 효용성을 검증할 가치가 있습니다.

학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.

[2603.02684] HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크

​논문 정보

​핵심 요약

​학습자 관점 포인트

​원문 링크

논문 정보

핵심 요약

학습자 관점 포인트

원문 링크