논문 정보
- 날짜:
2026-02-27
- 카테고리: -
- 우선순위 점수: 0.033
핵심 요약
분산 원장 기술(DLT) 분야를 위해 29.8억 개의 토큰과 2,212만 개의 문서를 포함한 대규모 특화 말뭉치인 DLT-Corpus를 구축했습니다. 과학 문헌, 특허, 소셜 미디어 데이터를 통합 분석하여 기술이 학술계에서 특허 및 시장으로 전이되는 패턴을 확인했습니다. 또한, BERT 기반의 도메인 적응 모델인 LedgerBERT를 공개하여 DLT 전용 개체명 인식(NER) 성능을 기존 대비 23% 향상시켰습니다.
학습자 관점 포인트
- 우리 팀 영향: DLT 도메인에 특화된 대규모 데이터셋과 최적화된 언어 모델을 활용하여 관련 분야의 자연어 처리 연구 효율성을 높일 수 있습니다.
- 권장 액션: 도입 검토
- 액션 근거: DLT 분야의 방대한 데이터셋과 성능이 검증된 LedgerBERT 모델이 공개되어 있어 내부 프로젝트의 도메인 적응 학습에 활용 가치가 높습니다.
원문 링크
학습자는 이 문서를 읽고 실험 여부를 바로 결정하세요.