본문 바로가기

인공지능은 나의 읽기와 쓰기를 어떻게 바꿀까1

인공지능은 나의 읽기와 쓰기를 어떻게 바꿀까 / 김성우 거대언어모델이 만들어지는 과정1단계: 거대 언어 자료를 위한 웹상의 언어 데이터를 대량으로 수집합니다. 흔히 '언어 빅데이터'라고 불리지만, 전산언어학자들은 '말뭉치' 혹은 '코퍼스'라고 부릅니다. 물론 아무 데이터나 마구 수집하는 것은 아니고, 일정한 기준을 충족하는 언어 데이터를 수집합니다. 2단계: 이렇게 모은 코퍼스를 필터링하여 비교적 품질이 좋은 데이터만을 남깁니다. 대규모 데이터이기에 사람이 일일이 수작업으로 분류할 수는 없으며, 텍스트 분류기를 활용하는 경우가 많습니다. 아울러 웹은 생각보다 많은 중복 데이터를 포함하므로 겹치는 텍스트를 자동으로 삭제하는 과정을 거칩니다. 3단계: 토큰화를 진행합니다. 수집한 코퍼스에서 토큰의 목록을 추출하는 작업입니다. 토큰은 코퍼스를 이루는 기본 단위.. 2024. 11. 1.

이전 1 다음

티스토리툴바