본문 바로가기

뇌세포덩어리""/리쿠르트

백엔드 개발자 + 데이터 엔지니어 면접 질문들 (2025)

저의 이력때문인지, 백엔드로 지원한 회사에서도 AI를 질문한 곳이 많았다.

이번엔 mlops / 데이터 엔지니어에 지원을 많이 해서 그쪽으로 질문이 편향되어 있다. 

+ 여러 회사들의 면접에서 받은 질문들에 대한 종합입니다. 

 

 

손코딩 문제

1. arr에서 특정 숫자를 찾는 문제

   + 특정 숫자가 여러개 있을 경우에 범위로 리턴하는 문제 

 

2. 특정 arr에서 

  + 두 수의 합이 target 인 수 찾기 (모두)

  + 연속된 합이 target인 범위 찾기 (모두)

  + 수 - index == target인 수 찾기 (모두) 

 

 

 

 

--------------------------------------------------------------------------

시스템 문제 

 

20G의 이미지가 주어졌을때, 해당 이미지를 mlops 구성하기

- 데이터는 어떻게 업로드 할것인가?

- 데이터의 일관성은 어떻게 보장할것인가?

- 병렬 연산은 어떻게 할것인가?

- 대규모 요청시에는 어떻게 할것인가?

- 저장 방식은 어떻게 할것인가?

- CI/CD는 어떻게 할것인가?

 


공장에서 iot를 사용하여 센서의 데이터를 실시간으로 받고 있다.  해당 데이터 적재 / mlops / 대시보드 까지의 모든 과정의 순서도를 그려보자. 
- 데이터는 어떻게 가져올 것인가? (메시지큐? 카프카? 기준은?)
- 데이터는 어떻게 저장할것인가? (디비? 어떤 디비? 파일? 파일 형태는?)
- 어떻게 학습시킬것인가? (GPU로 학습해봄? k8s로 파드마다 나눠서 해봄? 병렬 처리할수 잇는 기준은?)
- 어떻게 ML 파일을 배포할것인가? (파라미터 스토어 / 버전관리)
- 실제 서버에 어떻게 배포할것인가? (sdk인 형태로 배포해야 한다면? / 외부에서는 접근 불가능한 서버라면?-나가는 통신만 가능 / 카나리 배포라면? 하지만 서버가 멈추는 순간이 없어야 한다.)

--------------------------------------------------------------------------
기타 질문들 

- ML / GD / SGD

- 개와 고양이 사진을 분류할때 loss 함수는 어떤걸 쓸건가요?

- 파이썬에서는 왜 CPU하나만 사용하나요

- 비동기 / 이벤트 루프 설명 

- restful http2.0 설명 

- LLM에서 할루시네이션 줄이는 방법

- 코사인유사도는 왜 쓰나요? (다른거에 비해 좋은점은?)

- 벡터서치에서 데이터가 많을때의 최적화 코사인 유사도의 리턴되는 범위는?

- 테이블에 데이터가 많아서 조회가 느립니다. 어떻게 해야 할까요?

- 유저커널 / 시스템커널

- 대용량 데이터에 대한 어떤 주안점을 두는지
- 멀티 gpu 학습 사용 경험
- 추론 서버에 대한 오토 스케일링은 어떻게 관리하는지
- 추천 시스템을 만들때, 각각의 데이터가 서로 다르게 들어올경우엔 어떻게 해야 하나요? (글만 들어오다가, 이미지만 들어온다가 ..)

 

 

 

누군가에게는 도움이 되었으면 합니다. 화이팅!