ShoesNavigator
2023년 3월 2일 - 2023년 12월 22일
Backend Developer
Introduction
CNN 기반 코디 검색을 통해 어울리는 신발 추천 서비스
Tech Stack
python
tensorflow
AI
📋 ShoesNavigator (캡스톤 프로젝트)
🎯 프로젝트 개요
•
설명: 사용자의 상·하의 스타일을 분석하여 가장 잘 어울리는 신발을 추천해 주는 AI 서비스입니다. 패션 이미지 데이터 학습을 통해 의류의 특징을 추출하고, 딥러닝 모델을 활용해 스타일 매칭 알고리즘을 구현했습니다.
•
기간: 2023.02 ~ 2023.12 (10개월)
•
인원: 3명 (AI/Data Engineer)
👤 내 역할
•
역할: AI Model Engineer, Data Pipeline Manager
•
담당 파트:
🛠️ 기술 스택
[속성 입력용 요약]
AI & Data
•
TensorFlow, Keras: 딥러닝 모델 구축 및 학습
•
OpenCV: 이미지 데이터 전처리 및 변환
•
Python: 크롤러 개발 및 데이터 파이프라인 자동화
<aside> 💡 핵심 기술 결정: Data-Centric Approach 모델 구조를 변경하는 것보다 데이터의 품질을 높이는 것이 성능 향상에 효과적이라 판단했습니다. 단순 크롭(Crop)이 아닌 U2Net(Salient Object Detection)을 도입해 의류의 배경을 정밀하게 제거함으로써 노이즈를 최소화했습니다. </aside>
🐛 트러블 슈팅
문제 1: 배경 노이즈로 인한 모델 정확도 정체 (70%)
•
원인: 초기 모델 학습 시, 의류 이미지에 포함된 복잡한 배경이나 모델의 포즈 등이 노이즈로 작용하여 특징 추출의 정확도가 70% 수준에서 오르지 않았습니다.
•
해결: Data-Centric(데이터 중심) 접근 방식을 채택하여 전처리 파이프라인을 전면 재설계했습니다. U2Net 기반의 세그멘테이션(Segmentation) 기법을 도입해 배경을 완벽히 제거하고, 상/하의 객체 영역만 정밀하게 추출하여 학습시켰습니다.
•
결과: 노이즈가 제거된 고품질 데이터셋으로 파인튜닝한 결과, 모델 정확도를 93.2%까지(약 23%p 상승) 향상시켰습니다.
문제 2: 웹 크롤링 시 저작권 및 법적 리스크 우려
•
원인: 학습 데이터 확보를 위해 의류 쇼핑몰 이미지를 수집해야 했으나, 무단 크롤링 시 지식재산권 침해의 소지가 있었습니다.
•
해결: 해당 기업 고객센터와 법무팀에 직접 문의하여 프로젝트의 목적(교육 및 연구)을 명확히 설명하고 데이터 사용 허가를 사전에 획득했습니다. 이후 팀원들과 함께 수집된 데이터의 2차 전수 검사를 수행하여 무결성을 확보했습니다.
•
결과: 법적 리스크를 '0'으로 제거하고 윤리적인 절차를 준수하며 안정적으로 프로젝트를 완수했습니다.
📚 배운 점
•
데이터 전처리의 중요성(Garbage In, Garbage Out): 아무리 좋은 모델이라도 데이터 품질이 낮으면 성능에 한계가 있음을 체감했습니다. 배경 제거와 같은 전처리 과정이 모델 파라미터 튜닝보다 더 큰 성능 향상을 가져올 수 있음을 배웠습니다.
•
엔지니어의 윤리 의식: 기술적인 구현뿐만 아니라, 데이터 수집 과정에서의 법적/윤리적 검토가 프로젝트의 지속 가능성을 결정짓는 중요한 요소임을 깨달았습니다.
📊 성과
•
✅ 정확도 93.2% 달성: 초기 대비 23% 성능 향상
•
✅ 윤리적 데이터셋 구축: 저작권 이슈 없는 클린 데이터셋 확보 및 정제 프로세스 확립
📸 스크린샷
•
(전처리 전후 비교 이미지: [원본 의류 사진] -> [U2Net 배경 제거] -> [객체 추출 결과])