| 역할 | AI Model Engineer, Data Pipeline Manager |
| 담당 파트 | CNN 기반 딥러닝 모델 파인튜닝 및 성능 최적화, U2Net 기반 이미지 전처리 파이프라인 설계, 웹 크롤러 개발 및 학습 데이터셋 구축 |
| AI | Python 3.8, TensorFlow 2.13, Keras, OpenCV, U2Net |
| Database | Oracle |
| 🛑 문제 : | 모델 정확도가 70% 수준에서 정체 |
| 의류 이미지에 포함된 복잡한 배경이나 모델의 포즈가 노이즈로 작용해 특징 추출 정확도가 더 이상 오르지 않았음 | |
| 🔍 원인 : | 학습 데이터의 배경 노이즈와 객체 영역 불명확성 |
| 단순 크롭 방식으로는 의류 자체의 특징보다 배경과 주변 요소까지 모델이 함께 학습할 가능성이 컸음 | |
| 🛠️ 해결 : | U2Net 기반 세그멘테이션 전처리 도입 |
| Data-Centric 접근 방식으로 전처리 파이프라인을 재설계하고, U2Net으로 배경을 제거하여 상·하의 객체 영역만 정밀하게 추출한 뒤 학습 | |
| ✨ 결과 : | 모델 정확도 93.2% 달성 |
| 노이즈가 제거된 고품질 데이터셋으로 파인튜닝하여 초기 대비 약 23%p 성능 향상 |
| 🛑 문제 : | 학습 데이터 수집 과정의 지식재산권 침해 가능성 |
| 의류 쇼핑몰 이미지를 수집해야 했지만 크롤링 데이터 사용에 법적 리스크가 있을 수 있었음 | |
| 🔍 원인 : | 외부 이미지 데이터 사용 권한 불명확 |
| 교육 및 연구 목적이라도 무단 수집 이미지를 학습 데이터로 사용할 경우 문제가 발생할 수 있었음 | |
| 🛠️ 해결 : | 기업 고객센터와 법무팀에 직접 문의 후 사용 허가 획득 |
| 프로젝트 목적을 명확히 설명하고 데이터 사용 허가를 사전에 확보했으며, 수집 데이터의 2차 전수 검사를 진행 | |
| ✨ 결과 : | 윤리적 데이터셋 구축 및 프로젝트 안정성 확보 |
| 법적 리스크를 최소화하고 안정적으로 프로젝트를 완수할 수 있었음 |
| 데이터 전처리의 중요성 | 좋은 모델이라도 데이터 품질이 낮으면 성능에 한계가 있음을 체감함.배경 제거와 같은 전처리 과정이 모델 파라미터 튜닝보다 더 큰 성능 향상을 가져올 수 있음을 배움. |
| 엔지니어의 윤리 의식 | 기술 구현뿐 아니라 데이터 수집 과정에서의 법적·윤리적 검토가 프로젝트 지속 가능성을 결정짓는 중요한 요소임을 깨달음. |
| 모델 성능 향상 | 모델 정확도 93.2% 달성, 초기 대비 약 23%p 성능 향상 |
| 클린 데이터셋 구축 | 저작권 이슈 없는 클린 데이터셋 확보 및 정제 프로세스 확립 |