Kyung-Min Jin
Machine Learning Engineer | Building multimodal intelligence & Embodied AI
Kinematic-aware Hierarchical Attention Network
Solving temporal jitter and joint occlusions in video-based human pose estimation by integrating physical laws of motion (velocity & acceleration) into hierarchical spatio-temporal transformer architectures.
Read Paper & Code
운동학을 고려한 계층적 어텐션 네트워크 (HANet)
비디오 기반 3D 인체 포즈 추정 시 발생하는 프레임 간 지터링과 조인트 가려짐 문제를 해결하기 위해 물리적 운동 법칙(속도 및 가속도)을 계층적 시공간 트랜스포머 아키텍처에 통합하여 해결합니다.
논문 및 코드 보기
Research Interests
Multimodal Intelligence
Aligning vision-language-audio modalities, cross-modal continual learning, and RL policy alignment (GRPO/DPO).
Computer Vision / Pose
2D/3D human and hand pose estimation, spatial-temporal attention transformers, and quantized-aware training.
Embodied AI / Robotics
Robotic perception, QA dataset construction, and developing QA systems integrating RAG with ROS2.
관심 연구 분야
멀티모달 인공지능
시각-언어-오디오 모달리티 정렬, 교차 모달리티 지속 학습(Continual Learning) 및 RL 기반 정렬 기법(GRPO/DPO) 연구.
컴퓨터 비전 / 포즈
2D/3D 인체 및 손 포즈 추정, 시공간 어텐션 트랜스포머 모델 및 배포를 위한 양자화 인식 학습(QAT) 연구.
Embodied AI / 로봇공학
로봇 인지 기술, 로봇 관련 QA 데이터셋 구축 및 RAG와 ROS2를 결합한 QA 시스템 개발 연구.
Latest News
"MAPLE: Modality-Aware Post-training and Learning Ecosystem" arXiv Preprinted
Co-authored research proposing modality-aware post-training pipelines.Transitioned to Advanced Robotics Lab, LG Electronics
Focusing on QA dataset construction and RAG-ROS2 QA system development (선임연구원).Serving as Active Reviewer for NeurIPS, BMVC & ECCV
Reviewer activities for major machine learning and computer vision venues.최근 소식
"MAPLE: 모달리티 인식 포스트 트레이닝 및 학습 에코시스템" arXiv 프리프린트 등록
모달리티 인식 포스트 트레이닝 파이프라인을 제안하는 공동 연구 논문입니다.LG전자 로봇선행연구소(Advanced Robotics Lab) 이동
QA 데이터셋 구축 및 RAG-ROS2 결합 QA 시스템 개발 담당 (선임연구원).NeurIPS, BMVC 및 ECCV 학회 심사위원(Reviewer) 활동
기계학습 및 컴퓨터 비전 최우수 국제학회 논문 심사위원 활동 진행 중.Work & Education Timeline
LG Electronics
Full-time · 3 yrs 4 mos (Mar 2023 - Present)
Advanced Robotics Lab
Robot Cognition Task Specialist (선임연구원)
Jan 2026 - Present
Focusing on robotic perception, QA dataset construction, and developing QA systems integrating RAG with ROS2. Developing robotic query response capabilities.
AI Lab
Multimodal Task Specialist (연구원)
Jul 2023 - Dec 2025
Researched "Semantic-Aware Mutual Information Factorized Learning (SAMIF)" for multimodal segmentation. Deployed action detection/control models to Qualcomm Neural SDK via ONNX. Designed audio tower and LLM cross modal continual learning pipeline. Researched GRPO/DPO online policy optimization for MLLMs with Toronto AI Lab.
Cognitive Vision TP
Cognitive Vision TP Researcher (연구원)
Mar 2023 - Jul 2023
Optimized body pose estimation models using quantized-aware training for LG TV edge device deployment. Designed RecycleNet for hand mesh synthesis and proposed grouping attention mechanism per finger, achieving state-of-the-art performance in PA-MPJPE.
Korea University
7 yrs (Mar 2016 - Feb 2023)
Graduate School
M.S. in Artificial Intelligence (PRML Lab)
Sep 2021 - Feb 2023
Advised by Prof. Seong-Hwan Lee. Specialized in video-based human pose estimation, spatial-temporal attention transformers, and mutual learning. Published first-author papers at WACV 2023 (Oral) and Neural Networks. Graduated with a perfect GPA of 4.50/4.50.
College of Informatics
B.S. in Computer Science & CSE / Artificial Intelligence
Mar 2016 - Aug 2021
Completed double majors in Computer Science and Artificial Intelligence. Graduated with Honors. Cumulative GPA of 3.99/4.50 (AI major GPA: 4.17/4.50).
Voice Caddie
AI Assistant Device Developer · 7 mos (May 2020 - Nov 2020)
Developed and deployed golf swing pose estimation models, action localization modules, and specialized video annotation tools. Utilized Python, PyTorch, C++, and OpenCV.
Da Vinci Co., Ltd.
Frontend Developer · 8 mos (Jul 2020 - Feb 2021)
Deployed and maintained interactive map-based applications, link saving helper utilities, and browser extensions. Leveraged modern React, TypeScript, Next.js, and React Native codebases.
Klue
Frontend Developer · 3 yrs 9 mos (Jul 2019 - Mar 2023)
Designed, deployed, and maintained a course evaluation service utilized by university students. Managed state architectures using Redux and MobX, and implemented clean, responsive components in React and TypeScript.
경력 및 학력 사항
LG전자
정직원 · 3년 4개월 (2023.03 - 현재)
로봇선행연구소 (Advanced Robotics Lab)
로봇 인지 태스크 선임연구원
2026.01 - 현재
로봇 인지 기술, 로봇 관련 QA 데이터셋 구축 및 RAG와 ROS2를 결합한 QA 시스템 개발 업무를 담당하고 있습니다.
AI연구소 (AI Lab)
멀티모달 태스크 선임 연구원(연구원)
2023.07 - 2025.12
멀티모달 세그멘테이션을 위한 "SAMIF" 모델 연구를 진행했습니다. 행동 검출 및 제어 모델을 ONNX를 통해 Qualcomm Neural SDK에 이식했습니다. 오디오 인코더 및 LLM의 교차 모달 지속 학습 파이프라인을 설계했습니다. 토론토 AI 연구소와 협력하여 MLLM을 위한 GRPO/DPO 온라인 정책 최적화 연구를 수행했습니다.
영상인지 TP (Cognitive Vision TP)
영상인지 연구원 (연구원)
2023.03 - 2023.07
LG TV 엣지 디바이스 배포용 인체 포즈 추정 모델을 양자화 인식 학습(QAT)을 사용하여 최적화했습니다. 핸드 메쉬 합성을 위한 RecycleNet을 설계하고 손가락별 그룹핑 어텐션 메커니즘을 제안하여 PA-MPJPE SOTA 성능을 달성했습니다.
고려대학교
7년 (2016.03 - 2023.02)
대학원 (Graduate School)
인공지능학과 석사 학위 수여 (PRML 연구실)
2021.09 - 2023.02
이성환 교수님의 지도하에 연구를 수행했습니다. 비디오 기반 인체 포즈 추정, 시공간 어텐션 트랜스포머 및 상호 학습 연구를 전문으로 하였습니다. WACV 2023 (Oral) 및 Neural Networks 저널에 제1저자 논문을 게재했습니다. 만점 평점(4.50/4.50)으로 졸업했습니다.
정보대학 (College of Informatics)
컴퓨터학과 학사 졸업 / 인공지능학 복수전공
2016.03 - 2021.08
컴퓨터학과와 인공지능학 복수전공을 이수했습니다. 우등 졸업(Graduated with Honors)을 하였으며, 전체 평점 3.99/4.50 (인공지능 전공 평점: 4.17/4.50)을 취득했습니다.
보이스캐디 (Voice Caddie)
AI 어시스턴트 디바이스 개발자 · 7개월 (2020.05 - 2020.11)
골프 스윙 포즈 추정 모델, 행동 국소화(action localization) 모듈 및 전용 비디오 어노테이션 툴을 개발하고 탑재했습니다. Python, PyTorch, C++ 및 OpenCV를 활용하였습니다.
다빈치 (Da Vinci Co., Ltd.)
프론트엔드 개발자 · 8개월 (2020.07 - 2021.02)
인터랙티브 지도 기반 애플리케이션, 링크 저장 도우미 유틸리티 및 브라우저 확장 프로그램을 배포하고 관리했습니다. React, TypeScript, Next.js 및 React Native 기반의 최신 코드베이스를 활용했습니다.
클루 (Klue)
프론트엔드 개발자 · 3년 9개월 (2019.07 - 2023.03)
대학생들이 사용하는 강의 평가 서비스(KLUE)를 설계, 배포 및 유지관리했습니다. Redux와 MobX를 사용해 전역 상태 구조를 관리하고, React와 TypeScript를 사용하여 직관적이고 반응형 컴포넌트들을 개발했습니다.
Tech Stack & Skills
Deep Learning & AI
Robotics & LLM / RAG
Programming Languages
Development Tools & Frontend
기술 스택 및 기술 역량
딥러닝 & 인공지능 (Deep Learning & AI)
로봇 인지 및 LLM / RAG
프로그래밍 언어 (Languages)
개발 도구 및 프론트엔드 (Tools & Frontend)
Awards & Honors
Grand Prize (대상)
Miso AI Model Development Challenge
Dec 2021 · Ministry of Science and ICTR&D Scholarships
LG Electronics Scholarship Award
Sep 2022 · LG ElectronicsOral Presentations (WACV, SMC)
Invited Oral Presentations at Top Venues
2022 - 2023 · WACV 2023, SMC 2022Encouragement Prize
Smart Campus Dataton
Jul 2020 · Korea University수상 및 선정 내역
대상 (Grand Prize)
Miso AI 모델 개발 챌린지
2021.12 · 과학기술정보통신부LGenius 산학장학생 선정
LG전자 R&D 산학 장학생 선발
2022.09 · LG전자우수 학회 구두 발표 선정 (WACV, SMC)
최우수 학회(WACV 2023 Oral) 구두 발표 초청
2022 - 2023 · WACV 2023, SMC 2022장려상 수상
스마트 캠퍼스 데이터톤
2020.07 · 고려대학교Open-Source & Tutorials
- HANet (WACV 2023): PyTorch implementation of Kinematic-aware Hierarchical Attention Network [Repository]
- OTPose (SMC 2022): Occlusion-Aware Transformer for video pose estimation [Repository]
- Online Course Instructor: 2D Pose Estimation Tutorial Course (Inflearn, Mar. 2023)
오픈소스 및 강의 활동
All Stories
블로그 포스트
Kinematic Continuity-Aware Hierarchical Attention (HANet & M-HANet) for Video Pose Estimation 비디오 포즈 추정을 위한 물리 법칙 기반 계층적 어텐션 네트워크 (HANet & M-HANet)
비디오 포즈 추정을 위한 물리 법칙 기반 계층적 어텐션 네트워크 (HANet & M-HANet) 인체 관절의 물리적 운동 법칙(속도/가속도)을 활용해 비디오 포즈 떨림을 제어하는 계층적 어텐션 네트워크인 HANet(WACV 2023 Oral)과 M-HANet(Neural Networks 2024 저널) 연구의 핵심을 요약합니다.