Collector
AI가 '가상의 한국인' 700만 명을 만들었다 | Collector
AI가 '가상의 한국인' 700만 명을 만들었다
오마이뉴스

AI가 '가상의 한국인' 700만 명을 만들었다

광주 서구에서 평생 하역 일을 해온 70대 가장. 서초구 부동산 회계 사무소에 다니는 40대 직장인. 목동에 사는 꼼꼼한 은퇴자. 이 세 사람은 실제로 존재하지 않는다. 이름도, 주민등록번호도 없다. 그런데 이들은 통계적으로 '반드시 어딘가에 있을 법한' 한국인으로 설계되었고, 지금 AI 훈련용 데이터셋 안에 살아 숨 쉬고 있다. Nemotron-Personas-Korea는 이런 가상의 한국인을 약 700만 명 분량으로 생성한 합성 인구 데이터셋이다. 공개 직후 허깅페이스(Hugging Face) 데이터셋 랭킹에서 1위를 기록했으며, 세계 최대 규모의 '페르소나 확률 그래픽 모델' 중 하나로 소개되고 있다. 출처만 밝히면 누구나 무료로 활용할 수 있다. 가상의 주민등록 700만 장이 데이터셋을 가장 쉽게 이해하는 방법은 '가상의 주민등록 카드 + 생활 프로필'의 조합으로 보는 것이다. 실제 사람의 개인정보는 단 한 건도 들어가 있지 않다. 대신 통계청, 국민건강보험공단, 대법원 등에서 공개한 인구 통계, 즉 연령별 비율, 직업 분포, 지역별 가구 구성 등을 기반으로 "이 비율이라면 이런 사람이 이만큼 있겠지"라고 AI가 역산해 만들어낸 인물들이다. 각 인물에게는 나이, 성별, 거주지, 학력, 직업, 혼인 여부 같은 기본 인구통계 정보뿐 아니라, 직업적 성향, 취미, 여행 스타일, 음식 취향, 보유 기술, 가족관계, 문화적 배경까지 부여된다. 한 마디로 마케터들이 흔히 쓰는 '페르소나 카드'를 국가 통계 기반으로 수백만 장 찍어낸 것이다. 개인정보보호법을 준수하면서도 현실에 근접한 한국 사회의 축소판을 만들었다는 것이 이 프로젝트의 핵심 설계 원리이다. 해외에는 이미 비슷한 흐름이 있었다. 사실 '합성 인구' 개념 자체는 해외에서 먼저 시작되었다. 미국 교통부와 유럽 각국 연구소는 도시 교통 최적화나 감염병 확산 시뮬레이션을 위해 수천만 명 규모의 합성 국민 데이터를 이미 만들어 쓰고 있다. 전체 내용보기

Go to News Site