Last updated: 2025-09-18

기본 정보

신영인

데이터 엔지니어

자기소개

시스템이 일하고, 사람은 생각하게 만드는 구조를 설계해온 5년차 데이터 엔지니어입니다. 팀이 더 가치 있는 일에 집중할 수 있도록, 데이터 활용과 의사결정 과정을 시스템으로 재설계해왔습니다.

  • 수집부터 배포까지 전 과정을 자동화한 통합 데이터 플랫폼을 완성했습니다. 파편화되어 있던 전 과정을 하나의 시스템으로 통합하고 자동화하여 인적 의존성과 단계별 대기 시간을 근본적으로 제거했습니다. 데이터가 수집되면 모델 배포까지 끊김 없이 이어지는 워크플로우를 구현하여 전체 리드타임을 혁신적으로 개선하고 그 과정을 누구나 확인하고 참여할 수 있게 했습니다.

  • 누구나 필요한 데이터를 즉시 조회하고 활용할 수 있는 환경을 구축했습니다. 로컬 환경에 산재한 데이터를 통합해 데이터 관리를 일원화했습니다. DB 인덱싱·파티셔닝 최적화와 배치 기반 마트 구축으로 응답 속도를 최대 99% 향상시켜, 검색조차 불가능했던 수천만 건의 데이터를 지연 없이 활용할 수 있는 기반을 마련했습니다. 특히 단순 조회를 넘어 클러스터링 등 심층 분석까지 비전문가가 버튼 한 번으로 수행할 수 있는 체계를 마련하여 데이터 활용의 진입장벽을 획기적으로 낮췄습니다.

  • 경험적 판단에 의존하던 의사결정 방식을 데이터 기반 체계로 혁신했습니다. 데이터 품질 지표를 정량화·시각화하여 우선순위와 후속 액션을 즉시 식별할 수 있는 환경을 구축했습니다. 그 결과 팀 내 품질 개선 프로젝트가 4배 활성화되고, 품질 향상 속도 또한 동기 대비 1.6배 가속화되었습니다.

  • 단순 반복 작업을 줄여 팀의 리소스를 핵심 업무에 집중시켰습니다. 2주가 걸리던 수기 모델 평가와 문서화 전 과정을 버튼 클릭 한 번으로 완료되는 자동화 프로세스로 구현했습니다. 이를 통해 고정적으로 소모되던 평가 리소스를 결과 분석과 전략 수립이라는 본질적인 업무로 전환했으며, 피드백 주기를 줄여 모델 업데이트 속도 또한 가속화했습니다.

보유 스킬

  • Python 기반 데이터·백엔드 플랫폼 아키텍처 설계 및 구현 (Flask, FastAPI)
  • 데이터 파이프라인 및 비동기 워크플로우 설계·구현 (Airflow, Celery, Spark, Kafka)
  • 데이터 모델링 및 쿼리 성능 최적화 (MySQL, PostgreSQL, MongoDB)
  • 데이터 시각화 및 통합 모니터링 체계 구축 (React, Grafana, Elastic Stack, Prometheus)
  • 클라우드 기반 컨테이너 인프라 운영 (Docker, GCP, Azure, AWS)

경력

코클 | 데이터 엔지니어 | 2022.02 ~ (재직 중)

사운드 AI 모델 개발 딥테크 스타트업

주요 업무

데이터 수집·저장·통합부터 모델 학습·평가·배포까지 데이터 파이프라인 전 과정 설계 및 구축·운영

  • 로컬·개인 환경에 분산되어 접근과 공유가 어려웠던 데이터를 통합 스키마 설계와 중앙 저장소 구축으로 일원화하고, 자동 ETL 파이프라인을 통해 조직 단위 데이터 접근·활용 체계 구축
  • 대용량으로 인해 검색이 불가능하던 데이터 문제를 Airflow 기반 배치 데이터 마트 구축과 조회 성능 최적화로 해결하여, 다중 조건 검색과 즉각적인 데이터 활용이 가능한 환경으로 전환
  • 경험적 판단에 의존하던 데이터 품질 평가를 정량화된 평가 지표와 버전 간 비교 대시보드로 체계화하여 데이터 기반 개선 프로젝트 수 4배 증가 및 품질 개선 속도 1.6배 가속
  • 수작업 모델 평가 프로세스를 완전 자동화하여 평가 시간을 2주에서 20분으로 단축하고 팀 리소스가 분석·전략 수립에 집중할 수 있는 환경 구축

비알프레임 | 데이터 엔지니어 | 2021.09 ~ 2022.01

멀티모달 AI 기반 헬스케어 솔루션 개발 스타트업

주요 업무

  • 수작업 음성 평가 프로세스를 영상 → 오디오 추출 → STT → 텍스트 분류 모델로 이어지는 End-to-End 파이프라인으로 자동화해 인력 의존도 100% 제거
  • 네트워크·플랫폼 의존성을 제거하기 위해, ML 모델을 Bazel 기반 AAR 패키지로 패키징하고 네이티브 온디바이스 추론이 가능하도록 배포 구조 설계

로그러스아이티코리아 | 프로젝트 매니저 | 2018.11 ~ 2020.03

주요 업무

  • 국내외 60+ 고객사 프로젝트 관리, 안정적인 일정 준수와 프로젝트 품질 만족도를 바탕으로 기존 고객 재수주 및 신규 고객 유치 기여

프로젝트

데이터/모델 통합 플랫폼 구축 | 2022.02 – 현재

  • 로컬·수작업 환경을 데이터 수집부터 모델 배포까지 전 과정 완전 자동화한 데이터·모델 통합 플랫폼으로 전환
  • 데이터 조회·분석·추출 및 모델 학습·평가·변환·배포등 주요 워크플로우를 직관적 UI로 제공하여 누구나 쉽게 데이터와 모델을 활용할 수 있는 셀프서비스 환경 구축
  • 주요 성능 최적화 사례:
    • DB 파티셔닝, 인덱싱, 쿼리 최적화로 조회 속도 65~99% 개선
    • 키-값 기반 임베딩 캐싱 시스템으로 모델 평가 시간 65% 단축 및 GPU·외부 서버 의존성 제거
    • 배치 인퍼런스 및 데이터 적재 최적화로 수백만 건 데이터 분석 시간 7일에서 1일로 단축

기술 스택: Docker, React, Flask, Airflow, Celery, Ray, MariaDB, ELK Stack, Prometheus, InfluxDB, Grafana, Jenkins, GitHub Actions

ML 모델 성능 평가 자동화 시스템 구축 | 2024.10 – 2025.05

  • 실제 서비스 시나리오를 반영해 모델 성능을 평가하고 평가 그 결과를 배포 의사결정에 직접 활용할 수 있는 시스템 구축
  • 기존 수작업 프로세스를 전면 자동화하여 2주 소요 작업을 원 클릭으로 20분 내 완료 가능하도록 개선
  • 다양한 성능 지표를 동적으로 관리할 수 있는 어드민 페이지와 모델 간 성능 비교 대시보드 구현
  • 경험적 판단에 의존하던 모델 배포 결정을 데이터 기반으로 전환해 배포 대상 모델을 빠르고 일관된 기준으로 결정할 수 있도록 개선

기술 스택: React, Flask, FastAPI, Celery, TensorFlow, PyTorch

데이터셋 품질 평가 및 모니터링 시스템 구축 | 2024.04 – 2024.10

  • 데이터셋 품질 개선 효과를 정량적으로 설명하기 어려운 문제 해결을 위해 평가 시스템 개발
  • 관련 논문 리서치 및 경험적 지표의 정량화를 통해 체계적인 품질 평가 지표 선정 및 표준화
  • 버전 간 성능 비교 및 클래스별 취약점 분석이 가능한 QA 대시보드 구현
  • 데이터 기반 개선 프로젝트 4배 증가, 전체 품질 지표 12% 및 모델 관련 지표 45% 향상, 품질 향상 속도 1.6배 가속화
  • 새로운 데이터셋 업데이트 시 자동 예측 및 지표 계산, 관련자 알람 발송 시스템 구축 → 수동 모니터링 작업 자동화

기술 스택: React, Flask, FastAPI, Celery, TensorFlow

[대학원 프로젝트] 실시간 네트워크 공격 탐지 플랫폼 PRISM 구축 | 2025.03 – 2025.06

  • 대규모 네트워크 트래픽에서 다양한 공격 유형을 실시간으로 탐지하기 위한 확장 가능한 데이터 파이프라인 설계 및 구축
  • Kafka + Spark Structured Streaming 기반 실시간 처리 아키텍처로 패킷 수집부터 예측까지 End-to-End 자동화하여 평균 61ms 내 준실시간 탐지 성능 달성
  • ELK 스택 기반의 대시보드 및 알람 시스템을 통해 시간대·IP·공격 유형별 다차원 분석과 즉각적인 위협 대응 환경 구현
  • 메모리 사용량 1GB 이하의 경량 아키텍처 설계로 저사양 환경에서의 운영 안정성 확보 및 인프라 비용 절감
  • 컴퓨터소프트웨어학과 졸업프로젝트 우수상 수상

기술 스택: Docker, Python, Kafka, Spark, Elasticsearch, Kibana

GitHub:

  • 모델 개발: https://github.com/younginshin115/lucid-ddos
  • 전체 시스템: https://github.com/younginshin115/prism

학력

연세대학교 공학대학원 컴퓨터소프트웨어학과 | 2023.09 ~ 2025.08

  • GPA: 4.26 / 4.3
  • Relevant Coursework: 데이터 엔지니어링, 소프트웨어공학, GPU/병렬 프로그래밍, AI 시스템 최적화, 이상 탐지 모델링
  • 공학대학원 우수졸업생 수상 (top 3)

가천대학교 행정학과 | 2010.03 ~ 2017.02

  • GPA: 4.15 / 4.5

성남외국어고등학교 독일어학과 | 2007.03 ~ 2010.02

교육

Google Cloud Monthly Advanced Workshop – Security & Network | 2024.02

  • 보안·네트워크 워크숍을 통해 운영 중인 클라우드 환경의 플랫폼 보안 강화 방안 검토

Databricks Bootcamp – Learn how to build a Lakehouse architecture | 2023.05

  • Lakehouse 아키텍처 이해 및 Delta Lake, Databricks SQL, MLflow 기반 데이터 엔지니어링 실습

PBL 센서데이터 활용 빅데이터 전문가 과정 | 2021.03-2021.08

  • 한양대학교 소프트웨어융합교육원
  • Docker, Kafka, Spark Streaming 기반 실시간 데이터 파이프라인 구축 프로젝트 수행

대외활동

데이터야놀자 발표 - 나홀로 생존기 | 2025.06

  • 팀내 단독 개발자로 4년간 사내 플랫폼을 구축·운영하며 서버 안정성 확보, 데이터 기반 의사결정, 자동화 파이프라인 도입까지의 경험과 전략 공유

개발 블로그 운영 | 2021.06–현재

  • 유사한 이슈 발생 시 빠르게 해결 하기 위한 이슈 아카이브이자 동일한 상황에 처한 개발자에게 도움이 될 수 있도록 해결 과정과 판단 기준을 정리·공유한 개발 블로그

사내 기술 세미나 발표 | 2023.03-2024.12

  • 데이터 품질 관리, 모델 평가, 사내 데이터/모델 플랫폼 구조에 대한 지식 공유를 통해 팀 전반의 데이터 활용 효율 및 의사 결정 속도 개선 (총 6회)

Google BigQuery ML 해커톤 (User Churn Prediction) | 2023.04

  • 해커톤 참여를 통해 BigQuery 기반 대규모 데이터 처리·분석 환경의 실무 적용 가능성 검증

스터디 활동 | 2021.03-2023.09

  • Spark, Kafka, Hadoop Ecosystem, Elasticsearch 등 데이터 엔지니어링 핵심 기술을 주제로 스터디를 리드하며 구조·운영 관점의 지식 정리 및 공유

외국어

영어 | 비즈니스 레벨

  • TOEIC Speaking: 170 / Level 7 (2020.06.14)
  • TOEIC: 950 (2020.05.31)

일본어 | 일상 회화 레벨

  • JLPT N2 (2025.01.10)