일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
- Jupyter notebook
- cocre
- Decision Boundary
- 도커
- 티스토리챌린지
- IVI
- docker attach
- Pull Request
- aiffel exploration
- 히비스서커스
- airflow
- ssh
- docker exec
- numpy
- HookNet
- vscode
- 기초확률론
- 사회조사분석사2급
- 프로그래머스
- cs231n
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- CellPin
- 오블완
- 백신후원
- AIFFEL
- GIT
- WSSS
- docker
- 코크리
- logistic regression
- Today
- Total
목록Programming/Python (6)
히비스서커스의 블로그

TCGA dataset은 주로 genomic dataset으로 알려져 있으나 WSI 데이터도 존재한다. 최근 GDC Data Portal에서 TCGA-CRC (TCGA-COAD와 TCGA-ROAD) 를 다운로드 받으면서 필요한 각 스텝을 정리하였다. 기본적으로 GDC manifest라는 다운로드 받을 목록이 적힌 파일을 다운로드 받고 이를 gdc-client라는 다운로드 코드로 GDC manifest 목록들을 다운로드 방식이다. 1. GDC Data Portal에 접속 https://portal.gdc.cancer.gov/ https://portal.gdc.cancer.gov/ portal.gdc.cancer.gov 2. Build Cohort 상단 메뉴에서 Repository를 클릭한 후 CASES..

benchmark dataset을 다운받는 경우 예전에는 다른 외부 사이트나 구글드라이브에 올려진 데이터를 다운받는 경우가 많았던 것 같은데 요새는 hugging face에 많이 업로드하는 것 같다. 로그인 없이 직접 다운로드 받을수도 있지만, access를 요청해서 승인을 받아야 다운로드를 받을 수 있는 경우도 존재한다. 그래서, python에서 직접 hugging face에 업로드 된 benchmark datatset을 다운로드 받는 방법을 정리해보았다. 1. hugging face 사이트에서 로그인 후 dataset에 대한 access 요청 https://huggingface.co/ Hugging Face – The AI community building the future. huggingfac..

이번 포스팅에서는 Airflow를 docker 컨테이너에서 사용할 경우 PostgreSQL 컨테이너와 네트워크로 연결하는 방법을 정리하였다. 왜 DB container로 PostgreSQL을 사용하려는가? 일단 Airflow에서 공식적으로 제공하는 docker-compose 파일에서 PostgreSQL을 DB container로 업로드 하도록 세팅되어 있다. 그 이유는 아마도 Airflow에서 병렬처리를 하는 Executor를 사용하려면 PostgreSQL를 DB로 하는 것이 유리하기 때문인 것으로 보인다. (만약 SQLite를 DB로 사용하게 될 경우 Executor가 아닌 Sequential Executor를 사용하여야 해서 병렬이 아닌 순차적를 할 수 밖에 없다고 한다.) Docker환경에서 Air..

이번 포스팅에서는 Airflow를 docker 컨테이너에서 사용할 경우 WandB를 설정하는 방법을 정리하였다. 왜 Airflow를 WandB와 같이 사용하려는가? Airflow는 일반적으로 데이터 파이프라인 구축하여 스케줄링 하고 모니터링 하기 위해 주로 사용된다. 실시간으로 로그가 쌓이는 작업에서 데이터 파이프라인을 관리하기 위해서 보통 많이 쓰이는 것으로 알고 있다. 이런 과정을 위해서 쓴다면 로그들은 ETL를 거쳐 데이터베이스에 저장되고 ELT 과정을 통해 의미있는 데이터들을 얻어낸 다음 머신러닝 학습을 한 후 얻게 된 정보를 바탕으로 서비스를 제공하는 방식으로 운영이 될 것이다. 만약, 데이터베이스에 저장될 수 있는 데이터가 아닌 이미지 데이터를 위한 머신러닝 모델을 활용하는 task가 이 과정..

이번 글에서는 object detection 모델 학습을 위한 라이브러리로 유명한 mmdetection을 사용하기 위한 방법을 다루고자 한다. 기존 버전들(ver 2.x)에 대한 블로그 글은 많지만 최근 ver 3.x로 업데이트 된 후 정리된 내용이 없어 직접 사용해본 후 정리해보았다. 0. 설치 및 설정 mmdetection은 라이브러리 설치 후 모듈을 불러오는 일반적인 방식과 다르게 git clone 후 커스터마이징하는 방식으로 많이 쓴다. 먼저, mmdetection은 mmengine과 mmcv라는 라이브러리와 연동되어 작용하기 때문에 이들을 먼저 설치해주어야 한다. pip install -U openmim mim install mmengine mim install "mmcv>=2.0.0" 그 후,..

TTA(Test Time Augmentation)란? TTA이란 Train 과정이 아닌 Test (Inference) 과정에서 Augmentation을 적용하여 나온 결과들에 대해 대표값 (대체로 평균)을 도출하여 결과값이 더욱 Robust하게 만드는 기법을 말한다. segmentation, classification, super-resolution 등과 같은 Computer Vision 문제를 해결하는데 사용된다. 대체로 TTA를 적용하였을 경우 더 결과가 좋아지는 경우가 많아 Kaggle과 같은 경진대회에서도 많이 사용된다. TTA 적용하기 Pytorch를 Framework로 사용하여 Segmentation Task를 진행한다고 하였을 때 TTA를 적용하는 코드를 간략하게 정리해보았다. 이때, 대표적..