히비스서커스의 블로그

MovieLens 데이터 정보 본문

Theory/Dataset Information

MovieLens 데이터 정보

HibisCircus 2021. 2. 2. 14:49
728x90

https://grouplens.org/datasets/movielens/

MovieLens은 GroupLens Research에서 MovieLens의 등급 dataset을 수집해서 제공한 자료들이다. dataset은 세트의 크기에 따라 다양한 기간에 설쳐 수집되었다. 자료들에 대한 공개재배포는 허용하지 않으므로 아래에 링크를 걸어두었고, 데이터에 관한 정보를 README.md에서 얻어 간단하게 정리해보았다.

 

grouplens.org/datasets/movielens/

 

MovieLens

GroupLens Research has collected and made available rating data sets from the MovieLens web site ( The data sets were collected over various periods of time, depending on the size of the set. …

grouplens.org

새로운 연구에 추천하는 자료

MovieLens 25M dataset (2019 년 12 월 출시)

이 데이터 세트 (ml-25m)는 영화 추천 서비스 인 MovieLens의 별 5 개 등급 및 자유 텍스트 태그 지정 활동을 설명한다. 62423 영화에 걸쳐 25000095 등급 및 1093360 태그 응용 프로그램을 포함한다. 이 데이터는 1995 년 1 월 9 일부터 2019 년 11 월 21 일 사이에 162541 명의 사용자가 생성했다.

사용자는 무작위로 선택되었다. 선택된 모든 사용자는 최소 20 개의 영화를 평가했다. 각 사용자는 ID로 표시되며 다른 정보는 제공되지 않았다.

 

교육 및 개발에 추천하는 자료

MovieLens Latest Datasets

  • Small: 이 데이터 세트 (ml-latest-small)는 영화 추천 서비스 인 MovieLens의 별 5 개 등급 및 자유 텍스트 태그 지정 활동을 설명한다. 9742 영화에 걸쳐 100836 등급 및 3683 태그 응용 프로그램을 포함한다. 이 데이터는 1996 년 3 월 29 일부터 2018 년 9 월 24 일 사이에 610 명의 사용자가 생성했다. 사용자는 무작위로 선택되었다. 선택된 모든 사용자는 최소 20 개의 영화를 평가했다. 각 사용자는 ID로 표시되며 다른 정보는 제공되지 않았다.
  • Full: 이 데이터 세트 (ml-latest)는 영화 추천 서비스 인 MovieLens의 별 5 개 등급 및 자유 텍스트 태그 지정 활동을 설명한다. 58098 영화에 걸쳐 27753444 등급 및 1108997 태그 애플리케이션이 포함되어 있다. 이 데이터는 1995 년 1 월 9 일부터 2018 년 9 월 26 일 사이에 283228 명의 사용자가 생성했다. 사용자는 무작위로 선택되었다. 선택된 모든 사용자는 최소 1 개의 영화를 평가했다. 각 사용자는 ID로 표시되며 다른 정보는 제공되지 않았다.

 

합성 데이터셋

MovieLens 1B Synthetic Dataset

MovieLens 1B는 ML-20M의 실제 등급 2 천만 개에서 확장 된 합성 데이터 세트로,MLPerf지원으로 배포된다.이러한 데이터는 .npz 파일로 배포되며python 및 numpy를 사용하여 읽어야 한다.

 

오래된 데이터셋

MovieLens 100K Dataset

1682 편의 영화에서 943 명의 사용자로부터 100,000 개의 평가(1점에서 5점)가 포함되어 있다. 1998 년 4 월 출시되었다.

사용자들은 최소 20편의 영화에 대해 평가하였다.

MovieLens 1M Dataset

2000 년에 MovieLens에 가입한 6,040 명의 MovieLens 사용자가 약 3,900 편의 영화에 대한 1,000,209 개의 등급이 포함되어 있다.

MovieLens 10M Dataset

71567 명의 사용자가 10681 편의 영화에 적용한 10000054 개의 등급 및 95580 개의 태그가 포함되어 있다.

MovieLens 20M Dataset

1995 년 1 월 9 일부터 2015 년 3 월 31 일 사이에 138493 명의 사용자가 27278 편의 영화를 평가한 20000263 개의 등급 및 465564 개의 태그가 포함되어 있다.

MovieLens Tag Genome Dataset

10,000 개의 영화에 적용된 1,100 개의 태그 풀에서 1,100 만 개의 계산된 태그-영화 관련성 점수가 포함되어 있다..2014 년 3 월에 출시되었다.

 

 

 

-히비스서커스-

728x90