본문 바로가기

UpstageAILab

Data-Centric AI Data-Centric AI 란AI 성능을 개선하는 데 있어 데이터의 품질과 준비에 초점을 맞춘 접근 방식좋은 데이터를 어떻게 구축하고 관리할지에 집중Data-Centric AI vs. Model-Centric AI Model-Centric AI: 모델 아키텍처나 하이퍼파라미터 튜닝 등 모델을 개선하는 것에 집중하여 데이터는 고정된 상태에서 모델의 성능을 최대화Data-Centric AI: 모델이 아닌 데이터의 품질을 향상시켜 AI 시스템을 개선하는 접근 방식으로 잘못된 레이블 수정, 데이터 증강, 다양한 데이터를 추가하는 방식으로 성능을 높이며 모델이 동일한 상태일 때, 데이터의 품질이 성능에 중요한 영향을 미친다는 점을 강조Data-Centric AI Manager vs. Data ManagerDat.. 더보기
NLP(Natural Language Processing) 1. 자연어 처리(NLP)란 무엇인가?자연어 처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있게 하는 기술NLP의 궁극적인 목표는 컴퓨터가 자연어를 인간처럼 이해하고 생산할 수 있게 하는 것2. NLP가 어려운 이유학습을 통해 자연어 처리는 매우 복잡하는 사실을 알게됨모호성(Ambiguity): 단어나 문장이 여러 의미로 해석될 수 있음문맥의 중요성: 동일한 단어가 문맥에 따라 다르게 해석될 수 있음구조적 차이: 각 언어는 고유한 문법, 어휘, 표현 방식을 가지고 있음데이터 부족: 특히 소수 언어의 경우, 대규모 데이터셋이 부족할 수 있음3. 한국어 자연어 처리의 어려움한국어는 영어와 달리 어순이 유연하고 교착어 특성 때문에 자연어 처리에.. 더보기
Image Classification 경진대회 최종 4등 1. Competiton InfoOverview문서 타입 데이터셋을 이용해 이미지 분류를 모델을 구축하여 주어진 문서 이미지를 입력 받아 17개의 클래스 중 정답을 예측.문서 타입 분류를 위한 이미지 분류 대회문서 데이터는 금융, 의료, 보험, 물류 등 산업 전반에 가장 많은 데이터이며, 많은 대기업에서 디지털 혁신을 위해 문서 유형을 분류하고자 함.문서 타입 분류는 의료, 금융 등 여러 비즈니스 분야에서 대량의 문서 이미지를 식별하고 자동화 처리를 가능케 할 수 있음.computer vision domain에서 가장 중요한 태스크인 이미지 분류 대회.computer vision에서 중요한 backbone 모델들을 실제 활용해보고, 좋은 성능을 가지는 모델 개발 및 그 밖에 학습했던 여러 테크닉들을 적용.. 더보기
Regression 경진대회 최종 2등 [Upstage AI Lab] Regression 대회1. Competiton InfoOverviewHouse Price Prediction 경진대회는 주어진 데이터를 활용하여 서울의 아파트 실거래가를 효과적으로 예측하는 모델을 개발하는 대회입니다.Timeline2024년 7월 15일 (월) - 대회 시작, 각자 EDA2024년 7월 16일 (월) - 각자 EDA 및 Feature Engineering2024년 7월 17일 (수) - 최종 데이터셋 설정 및 Modeling2024년 7월 18일 (목) - Feature Selection 및 Modeling Hyper-parameter tuning2024년 7월 19일 (금) - 최고 성능 모델 추가 처리 및 최종 제출 기한Evaluation아파트 매매의 .. 더보기
ML Regression 주가 예측 여러 회사의 주가 예측하기¶실습목표1. 주식 데이터셋을 야후로부터 불러와서 모델에 입력가능한 형태로 변환합니다.2. 시계열 데이터의 특징을 이해하고 EDA 및 F.E 를 진행합니다.3. Cross Validation 을 통해 Hyper Parameter Tunning 을 진행하여 성능을 높여봅니다.실습단계1. 라이브러리 임포트2. 데이터셋 로드 및 전처리3. EDA 및 F.E4. 모델 로드 및 학습5. 모델 평가 및 예측6. 모델 결과 시각화Mission : 아래 코드를 모두 수행하여 AAPL 의 주가를 예측합니다.¶(선택) ALL Stock 데이터에 대해서도 각각 종목별로 주가를 예측합니다.(선택2) 기존에 사용했던 WandB 를 활용하여 CV 시에 파라미터 별 성능을 기록합니다.1.라이브러리 임포트¶.. 더보기
코딩테스트를 위한 자료구조 및 알고리즘 개론 two-sum¶In [ ]:def twoSum(nums: list[int], target: int) -> list[int]: for i in range(0, len(nums)-1): for j in range(i+1, len(nums)): if nums[i] + nums[j] == target: print(nums[i], nums[j]) return [i, j]twoSum([3, 2, 4], 6)2 4Out[ ]:[1, 2]재귀함수 이용¶In [ ]:def solution(nums, target): n = len(nums) def recur(ans, start): if len(ans) == 2: if nums[ans[0].. 더보기
Upstage AI Lab 3기 OT 회고 ▷ 목차 내가 꿈꾸는 개발자는? 왜 Upstage AI Lab 인가? Upstage AI Lab 합류 전 고심했던 부분 OT 후 느낀 점 앞으로의 마음가짐과 기대 ▷ 내가 꿈꾸는 개발자는? 내가 되고자 하는 개발자는 All-rounder developer 다. ∏형 인재가 되고자 하는 것이다. 한 개발 분야에서 전문성을 쌓는 것은 중요하지만 연차가 쌓일 수록 다양한 개발 분야로의 확대는 필요하다고 생각한다. 더욱이, ChatGPT의 등장으로 전세계 Big Tech 기업들에서는 아이러니하게도 비용절감을 이유로 (AI로 대체가능한)개발자들의 권고사직이 이어지고 있다. 개발자로 살아남아 20년 뒤에도 매니징과 개발을 하는 핵개인이 되기 위해서 말이다. ▷ 왜 Upstage AI Lab 인가? 각 기업에서 진행.. 더보기