일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- docker attach
- GIT
- WSSS
- aiffel exploration
- cocre
- docker exec
- 오블완
- Jupyter notebook
- airflow
- Pull Request
- docker
- Decision Boundary
- 도커
- vscode
- 코크리
- logistic regression
- 사회조사분석사2급
- 기초확률론
- HookNet
- Multi-Resolution Networks for Semantic Segmentation in Whole Slide Images
- 히비스서커스
- numpy
- IVI
- AIFFEL
- 티스토리챌린지
- ssh
- CellPin
- 백신후원
- cs231n
- 프로그래머스
- Today
- Total
목록Theory/Dataset Information (8)
히비스서커스의 블로그
BERT모델을 이용하여 질문에 대한 응답하는 인공지능(= 기계독해 - Machine Reading Comprehension, MRC)을 만들어보자. 이를 진행하기 위해 사용한 데이터셋은 KorQuAD2.0로 LG CNS에서 구축한 대규모 질의응답 데이터셋이다. 이는 미국 스탠퍼드 대학에서 구축한 대용량 데이터셋인 SQuAD를 벤치마킹한 것이다. 기계독해 태스크에서는 머신이 자연어의 의미를 정확하게 이해하고 사람의 질문에 정확하게 답변할 수 있는지가 매우 중요한데 SQuAD 데이터셋은 언어 모델의 선능을 측정하는 가장 표준적인 벤치마크로 인정받고 있다. KorQuAD 또한, 딥러닝 기반의 질의응답, 한국어 독해능력을 측정하는 가장 중요한 태스크로 손꼽히고 있다. SQuAD에 관한 정보 rajpurkar.g..
SRGAN을 적용해 흐린 사진을 선명하게 해보자. 기본 예제 데이터로 DIV2K 데이터를 주었기에 찾아보고 정리해보았다. 데이터셋 정보 링크 data.vision.ee.ethz.ch/cvl/DIV2K/ DIV2K Dataset Citation If you are using the DIV2K dataset please add a reference to the introductory dataset paper and to one of the following challenge reports. @InProceedings{Agustsson_2017_CVPR_Workshops, author = {Agustsson, Eirikur and Timofte, Radu}, title = {N data.vision.ee.et..
송영숙님이 모은 데이터를 사용하였다. 송영숙님이 제작하신 데이터 경로는 다음과 같다. github.com/songys/Chatbot_data songys/Chatbot_data Chatbot_data_for_Korean. Contribute to songys/Chatbot_data development by creating an account on GitHub. github.com 이곳에 설명에 의하면 데이터는 다음카페 "사랑보다 아름다운 실연"에서 자주 나오는 이야기들을 참고하여 제작하였다고 한다. 카페의 일정 등급 이상의 멤버만 글을 읽을 수 있어서 카페에 관한 자세한 설명은 알 수 없으나 '너무너무 힘들어요'페이지나 '고민상담실'페이지가 보이는 것으로 보아 고민을 상담하는 카페인 것 같다. 또한, ..
폐렴에 관한 의료사진을 보고 딥러닝 기술을 이용하여 정상인지 폐렴인지 판별해보자. 이번 데이터로는 Chest X-Ray Images (Pneumonia)를 사용하였다. 데이터에 대한 정보는 다음과 같다. 데이터 논문 링크 www.cell.com/cell/fulltext/S0092-8674(18)30154-5 데이터에 대한 이해 왼쪽의 이미지는 정상 흉부 X-ray로 이미지에서 희미한 영역없이 깨끗한 폐임이 드러난다. 가운데 이미지는 세균성 폐렴 X-ray로 오른쪽 상부 옆 (흰색 화살표)에서 초점 엽 강화를 나타낸다. 오른쪽 이미지는 바이러스성 폐렴으로 양쪽 폐에서 보다 확산된 간질성 패턴으로 나타난다. 캐글 링크 www.kaggle.com/paultimothymooney/chest-xray-pneumo..
CIFAR-10 이미지를 많이 들어보고 보았지만 정확하게 어떤 내용을 담고있는지는 정리를 안해본 것 같아 해보려 한다. 자세한 정보는 이곳에서 확인이 가능하다. www.cs.toronto.edu/~kriz/cifar.html CIFAR-10 and CIFAR-100 datasets < Back to Alex Krizhevsky's home page The CIFAR-10 and CIFAR-100 are labeled subsets of the 80 million tiny images dataset. They were collected by Alex Krizhevsky, Vinod Nair, and Geoffrey Hinton. The CIFAR-10 dataset The CIFAR-10 dataset c..
MovieLens은 GroupLens Research에서 MovieLens의 등급 dataset을 수집해서 제공한 자료들이다. dataset은 세트의 크기에 따라 다양한 기간에 설쳐 수집되었다. 자료들에 대한 공개재배포는 허용하지 않으므로 아래에 링크를 걸어두었고, 데이터에 관한 정보를 README.md에서 얻어 간단하게 정리해보았다. grouplens.org/datasets/movielens/ MovieLens GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, dependi..
음성분류를 시작하기 앞서 아날로그 데이터가 어떻게 디지털 데이터로 변환될 수 있는지 알아보자. 아날로그 데이터는 연속데이터이고 디지털 데이터는 이진 데이터로 비연속적이다. 따라서, 이 과정에서는 왜곡이 일어날 수 밖에 없는데 표본화, 양자화, 부호화 과정을 통해 간단히 알아보자. 표본화: 아날로그 데이터에서 일정 시간 간격을 두고 표본을 채취하는 방법이다. => 이 과정은 사인 그래프를 히스토그램으로 나타낼 때를 연상하면 도움이 된다. 양자화: 표본화 과정에서 뽑은 표본이 소수점을 무한히 갖는 경우 컴퓨터는 그것을 다 표현할 수 없기 때문에 근사값을 구한다. => 이 과정에서 왜곡이 생긴다!! 부호화: 표본화와 양자화를 거친 디지털 정보를 0과 1의 이진수로 표현하는 과정이다. 자세한 설명은 이곳에서 확..
scikit-learn datasets이란? 우리가 실제로 데이터 분석을 할 때 얻게 되는 실제 데이터에 대한 알고리즘을 구현하기 위해 머신러닝 커뮤티니에 일반적으로 사용하는 큰 데이셋들 데이터의 통계적 속성을 제어하면서 데이터 집합의 크기가 미치는 영향을 평가하기 위해 합성 데이터를 생성할 수 있음 일반적으로 Toy datasets과 Real world datasets 으로 크게 나누어진다. 일반적으로 데이터분석이나 머신러닝에 쓰이는 자료는 Toy Datasets이므로 Toy Datasets에 대해 한 번 살펴보자 Toy Datasets 1) Boston house prices dataset (Target - 연속형) Attributes: 13 numeric/categorical predictive, ..