-
Model-Centric AI와 Data-Centric AI란기술 2022. 10. 13. 17:15
이전 글을 작성하면서 모델 중심 AI에서 데이터 중심 AI로 변해가고 있다는 글을 작성했다. 물론 데이터가 AI에서 아주 중요한 (거의 전부 인) 역할을 하는 것은 알고 있으나 뭐랄까 나 또한 모델이 굉장히 중요하다 생각을 하였고 이에 대한 글도 작성을 했었다. 물론 내가 가지고 있는 지식은 매우 짧고 얕으니 더 그랬을 수도 있다. 하지만 이를 지적하며 데이터의 중요도를 강조한 앤드류 응 덕분에 업계에서도 데이터에 대해서 다시 한번 생각을 해보는 것 같다.
https://eunjoomon.tistory.com/entry/%ED%8A%B8%EB%9E%9C%EC%8A%A4%ED%8F%AC%EB%A8%B8-%EB%AA%A8%EB%8D%B8
트랜스포머 모델
트랜스포머(Transformer)는 2017년 구글이 발표한 논문인 “Attention is all you need”에서 나온 모델로 기존의 seq2seq의 구조인 인코더-디코더를 따르면서도, attention만으로 구현한 모델이다. 이 모델의 목
eunjoomon.tistory.com
출처: it manual.net Model-Centric이란?
Model-centric approach란 머신러닝(AI) 모델의 퍼포먼스를 높이기 위해 실험연구 방식으로 (experimental research) 디벨롭하는 것을 의미한다.
- 이 방식은 데이터는 동일하게 유지하며 코드나 모델 아키텍처를 improve한다.
- 코드 중심으로 작동한다.
앤드류 응에 따르면 90% 이상의 research papar는 model-centric를 사용하였다. 이에 대한 설명으로 큰 데이터 셋 (Data set)를 만들기 어렵기 때문이라고 하였으며 결과적으로 model-centric ML이 더 promising 하다고 AI 커뮤니티는 생각을 하게 되었다.
Data-Centric이란?
코드를 그대로 유지하며 데이터를 수정하거나 추가하는 식으로 모델 성능을 끌어올리는 방법, 즉 데이터의 질을 반복적으로 향상하는 것이다.
AI 모델이 서비스에 출시되기 전에는 Data-Centric과 Model-Centric의 중요도가 각각 50%, 50%으로 여겨진다. 모델 요구사항 설정 시 논의된 여러 요소들은 모델의 힘에 의해 좌지우지되지만, 정확도를 확보하기 위해서는 데이터의 힘과 모델의 힘이 모두 필요하기 때문이다. 따라서 서비스 출시 전까지는 모두 동일한 비중을 차지하는 것이 일반적이다. 하지만, 서비스를 출시하고 난 이후 사용 중인 모델의 성능을 개선하고자 할 때에는 Data-Centric에 기울이는 노력이 더욱 커진다.
그 이유로는 서비스 출시 후에 정확도에 대한 성능 개선 요구가 가장 많기 때문이다. 이때 정확도 개선을 위해 모델 구조를 변경하는 것은 처리 속도, qps, 메모리 크기 등에 대한 요구 사항의 검증도 다시 해야 하므로 비용이 크게 들기 마련인데 서비스 출시 이후에는 Data-centric approach를 사용하여 성능을 올리거나 혹은 모델 학습 방법을 조금 바꿔 성능을 개선한다.
앤드류 응은 이와 같은 Data-Centric approach로 진화하기 위해서는 MLOps를 적극적으로 활용해야 한다고 말했다.
MLOps(Machine Learning Model Operationalization Management)란?
출처: 데이터브릭 MLOps는 머신 러닝 모델을 프로덕션으로 전환하는 프로세스를 간소화하고, 뒤이어 이를 유지 관리하고 모니터링하는 데 주안점을 둔 머신러닝 엔지니어링의 핵심 기능이다. 단순히 ML 모델뿐만 아니라, 데이터를 수집하고 분석하는 단계 (Data collection, ingestion, analysis, labeling, validation, preparation), 그리고 ML 모델을 학습하고 배포하는 단계(Model training, validation, Deployment)까지 전 과정을 AI 라이프사이클로 보고 MLOps의 대상으로 보고 있다.
Model Centric VS Data Centric
앤드류 응의 세미나에 따르면 컴퓨터 비전을 이용한 철강 합판 또는 태양광 패널의 결함을 찾는 문제에서 모델을 고치는 작업을 했을 때 Model Centric 방식보다 Data Centric 방식으로 모델 성능이 17% 정도 개선된 것을 확인했다.
결국은 Data-Centric approach 개발이 훨씬 효율적으로 모델 성능을 올릴 수 있으므로 MLOps를 통해 체계적으로 데이터의 질을 개선하는 툴 또는 프로세스를 설계해야 한다 제안했다.
출처:
더보기https://jaemunbro.medium.com/mlops%EA%B0%80-%EB%AC%B4%EC%97%87%EC%9D%B8%EA%B3%A0-84f68e4690behttps://www.upstage.ai/blog/business/data-centric-ai-modeling
서비스 향 AI 모델에서 데이터가 중요한 이유 — Upstage
실제 비즈니스에서 고객이 사용하는 서비스에 적용될 AI 모델을 개발하는 과정 및 성능 유지를 위한 두 가지 접근법을 짚어보며, 서비스 향 AI 모델에 데이터가 중요한 이유를 알아봅니다.
www.upstage.ai
[MLOps란] MLOps가 무엇인고?
MLOps의 정의, 그리고 ML Lifecycle에 대해 알아보자
jaemunbro.medium.com
'기술' 카테고리의 다른 글
메타버스의 미래 (0) 2023.02.13 Top 10 strategic technology trends for 2023 (0) 2023.01.29 테슬라 휴머노이드 (1) 2022.10.08 트위터가 틱톡처럼 변한다 (0) 2022.10.08 메타, 미국 유저들은 이제 NFT를 인스타그램과 페이스북을 통해 공유할 수 있게 했다. (0) 2022.10.08