본문으로 건너뛰기
🐨코알라 오딧세이
🐨
이다운
코알라 오딧세이

새 글 알림 받기

© 2026 이다운

글 목록
프로젝트/tour

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

K-Culture 관광 데이터를 활용한 일본어 RAG 파이프라인 및 어플리케이션 개발 toy project 계획을 소개합니다.

[Toy Project] 관광 활성화를 위한 거대 언어 모델 및 RAG 활용 계획

프로젝트

이번 3월부터 대학원에서 비전일제 박사과정 공부를 시작했습니다. 지금까지는 수업에서 얻은 내용을 정리하는 수준이었지만, 앞으로는 박사과정에서 얻을 수 있는 것들을 최대한 활용해보고자 합니다. 그 일환으로 여러 toy project를 진행하려 하는데, UBAI의 슈퍼컴퓨터 환경에서 실험해볼 계획입니다.

회사와 학교 모두에서 거대 언어 모델, RAG, Agent 관련 연구 및 솔루션 개발을 하고 있는 만큼, 이와 연결되는 프로젝트를 진행해보고자 AI Hub에서 적합한 데이터를 탐색했습니다.


데이터셋 선정

여러 데이터를 검토하던 중 아래 데이터셋이 눈에 띄었습니다.

K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터

한국 관광에 특화된 일본어 텍스트 데이터와 일본어 질의응답 데이터를 합산한 약 2억 어절 규모의 데이터셋으로, 일본인 관광객 대상 서비스 구축을 위해 설계되었습니다.

최근 한국과 일본의 해외 관광객 수 격차가 크게 벌어지고 있는 상황에서, 이 데이터를 활용하여 관광에 실질적인 도움이 되는 RAG 파이프라인 및 어플리케이션을 개발해보고자 합니다.


프로젝트 로드맵

1단계. 데이터 수집 (4월)

  • 일본어 관광 데이터 수집: K-Culture 관광 콘텐츠 특화 일본어 말뭉치 데이터 등
  • 한국어 관광 데이터 일본어 번역: 추가 데이터 확보를 위한 번역 작업

2단계. 모델 선정 (4월 ~ 5월)

4B 이하의 모델을 중심으로 한국어 및 일본어 성능이 뛰어난 모델을 선정합니다.

비교 대상 모델은 다음과 같습니다.

모델 파라미터 개발사
google/gemma-3-4b-it 4B Google
Qwen/Qwen2.5-1.5B-Instruct 1.5B Alibaba

3단계. RAG 파이프라인 구성 (5월)

수집된 데이터를 바탕으로 다양한 RAG 방법론을 비교 분석합니다.

  • 기존 RAG: 표준 Retrieval-Augmented Generation 파이프라인
  • GraphRAG: 그래프 구조를 활용한 RAG
  • LightRAG: 경량화된 RAG 방법론

또한 실시간 검색 툴을 연동하여 최신 정보를 적절히 활용할 수 있도록 구성할 예정입니다. 기회가 된다면 MCP(Model Context Protocol) 도 적극 활용해볼 계획입니다.

4단계. 어플리케이션 개발 (6월 ~ 7월)

구성된 RAG 파이프라인을 연결하여, 관광객에게 실제 도움이 될 수 있는 어플리케이션을 개발합니다.


일정 요약

기간 단계 주요 내용
4월 데이터 수집 일본어 관광 데이터 수집 및 번역
4월 ~ 5월 모델 선정 소형 다국어 모델 성능 비교
5월 RAG 파이프라인 기존 RAG / GraphRAG / LightRAG 비교
6월 ~ 7월 어플리케이션 개발 RAG 기반 관광 어플리케이션 구현

진행 상황은 단계별로 블로그에 정리할 예정입니다.

관련 글

댓글

0 / 1000