헤드라인
[ How to Be a Great Data Scientist ]
요약 :
Glassdoor은 데이터 과학자를 21년 미국에서 2번째로 좋은 직업으로 평가했습니다. 그에 맞추어 현재 수백 개의 부트 캠프, 대학 과정 및 MOOC가 쏟아져나오고 있습니다. 하지만 일단 데이터 과학자라는 직무를 갖게된 후 올바른 방식으로 기술과 경험을 발전시키기 위해서는 어떻게 해야할까요?
일단은 경험 입니다. 수많은 강의들은 훌륭한 데이터 과학자가 될 수 있도록 하지만, 경험은 훌륭한 데이터 과학자가 되도록 만듭니다. 그런 의미에서 Chanin Nantasenament의 포스트는 매우 참고할 만합니다.
본 기사는 신입 데이터 과학자가 어떠한 경험적인 영역에 집중해야할지, 그 4가지 영역에 대해 소개합니다.
- Data expertise (데이터의 전문성)
- Deep knowledge of statistics (통계에 대한 깊은 지식)
- End to end knowledge (한 끝에서 한 끝을 잇는 지식)
- knowing when to simplify (단순화 해야할 때를 알기)
본문
Rebecca Vickery, "How to Be a Great Data Scientist", Medium, April 30th. 40, 2022. URL : https://medium.com/towards-data-science/how-to-be-a-great-data-scientist-f22973b20a4e
본문의 근거
- 데이터의 전문성
모델은 일반적으로 사용 가능한 모든 데이터에 대해 학습되지 않으며 대신 샘플이 사용됩니다.
선택한 샘플이 대표성이 있는지, 모델에 대한 편향이 발생하지 않도록 데이터에 대한 깊은 이해가 필요합니다.
분석을 통해 데이터를 탐색하면 사용해야하는 feature과 버려야하는 feature을 이해할 수 있고 보다 적절한 모델과 평가방법을 선택할 수 있습니다. - 통계에 대한 깊은 지식
통계는 올바른 데이터를 선택하고, 탐색하고, 정리하고, 분석할 수 있는 도구입니다. 따라서 통계 지식과 경험이 있냐 없냐는 좋은 데이터 과학자와 나쁜 데이터 과학자를 가르는 중요 기준이 됩니다. - 한 끝에서 한 끝을 잇는 지식
데이터 과학에 의한 프로덕션은 오로지 사용될 때 그 가치와 영향력을 제공할 수 있습니다. 모델이 사용되기 위해서는 반드시 Business-facing system을 하에서 운영되어야 하고, ( 이는 모바일 앱이 될 수도 있고, Tableau의 대시보드가 될 수도 있습니다.) 그게 무엇이 됐던 인프라를 항상 필요로 합니다.
개발에서 프로덕션까지 모델을 도입하는데 필요한 인프라는 복잡하며, DevOps, 데이터 엔지니어링, 소프트웨어 엔지니어링, IT 보안 및 데이터 과학 등 여러 분야에서 활용됩니다. 데이터 과학자는 이 모든 분야에서 전문가가 될 필요는 없지만 충분히 알고 있어야 관련 분야의 전문가와 의미 있는 대화를 나눌 수 있고, 따라서 더 큰 그림을 이해할 수 있으며, 모델 구축에 필요한 기반 구조에 대한 의사결정에도 기여할 수 있게 됩니다. - 단순화 해야할 때를 알기
데이터 과학자의 주요 역할은 비즈니스 문제를 해결하는 것입니다. 이는 최첨단 알고리즘을 사용해야한다는 의미가 아니며, 데이터 과학자 또한 다른 비즈니스와 마찬가지로 투자 수익을 잘 창출할 수 있어야합니다. 따라서 모델 점수를 몇퍼센트 더 맞추기 위해 노력하는건 사업적으로 맞지 않을 수 있고, 잘 알려진 단순한 기법이 문제를 더 빨리 해결할 수도 있을 것입니다. 언제 더 복잡성을 도입해야하고, 언제 단순해져야 하는지를 아는 것 또한 훌륭한 데이터 과학자가 되기 위해 필요한 핵심 자질 입니다.
훌륭한 데이터 과학자는 최대한의 지속적인 가치를 창출하는 방식으로 귀중한 비즈니스 문제를 해결할 수 있습니다.
모델을 성공적으로 실운영 환경에 배치하고, 모델이 도착하면 안정적이고, 신선하게 유지할 수 있어야 합니다. 동시에 데이터 과학 프로덕션이 견고하고 품질이 우수하며 bias가 없도록 보장해야합니다.
추가 조사 내용
- 데이터과학 학습법 관련한 내용
- 데이터 분석에 대한 RECIPE
http://karpathy.github.io/2019/04/25/recipe/
현직자에게 물어볼 점
- 현직자들은 훌륭한 데이터 과학자가 되기 위해 어떤 노력을 유지하고 있는지.
- 단순화 해야할 때라는 것은 구체적으로 어떤 상황이고, 복잡화 해야하는 것은 어떤 상황을 말하는지.
- 인프라와 관련된 여러 분야에 대해 얼마만큼의 어떠한 공부를 하고 계시는지.
- 데이터에 대한 직관을 갖기 위해 도메인 영역에 또한 공부를 해야하는지. 그리고 어떤 공부를 해야 하는지.
#신문스크랩
'신문 스크랩' 카테고리의 다른 글
[신문스크랩] 데이터 레이크를 구축 및 검색 AI 솔루션 내놓은 워메프 (0) | 2022.05.03 |
---|---|
[신문스크랩] 머신러닝 기술을 활용한 신용평가 모형 (0) | 2022.05.02 |
[신문스크랩] AI one team (0) | 2022.04.29 |
[신문스크랩] 기존 증권사의 디지털 트렌스포메이션 (DT) (0) | 2022.04.28 |
[신문 스크랩] 운전습관을 분석해 차량사고 막는 AI (0) | 2022.04.27 |