머신러닝에 대해 공부하다 보면 학습 데이터를 어떤 식으로 구할지 고민하게 됩니다. 인터넷에 이미 많은 데이터 저장소들이 있고 오픈된 데이터들이 많으나 첫 시작점으로 삼을 만한 아주 기초적이고 심플한 데이터를 찾기 오히려 어렵다고 느껴지기도 합니다.


이럴 땐 그냥 만드는 것도 좋은 방법이 될수 있습니다. :)


아래는 소득(income), 부동산(real_estate), 가족수(family) 에 따라 슈퍼리치 인지 그냥 부자인지 중산층인지 가난한 사람인지 판별하기 위한 1000개 짜리 학습 데이터를 만들기 위한 코드 입니다.


값의 신뢰성을 위해 random 값의 범위와 최소 기본 값을 더해주어 각 타입별, 컬럼별 값을 생성하고 이를 종합하여 파일에 써주는 간단한 형태입니다. 간단한 형태의 데이터가 필요한 분들이 사용하시면 좋을 것 같습니다.