ai seminar 2019-12-27

simuruk wiki

개인화 추천 알고리즘

  • 데이터 마이닝 산학 연구 발표

추천 시스템 (구매 이력을 통해 추천)

아마존(매출 35프로가 추천시스템에서 나옴), 넷플릭스, 페이스북

collaborative filtering(협업 필터링) 데이터가 많을수록 성능좋음(여러사용자 패턴 고려), 콜드 스타트 문제(새로운것 추천 성능 떨어짐)

content-based recommendation(내용기반 추천) 콜드 스타트 문제에 대해 강함, 데이터에 대한 추천 성능 향상 폭 낮음

하이브리드 시스템 고안 둘다 사용

목표

입력 - 사용자별 구매 클릭 내역 - 상품별 정보 (제목, 카테고리) - 추천에 사용될 상품 후보

출력 - 각 사용자에 대한 추천 상품 - 후보 상품별 추천 점수

핵심 요소 - 사용자별 장단기 패턴고려 - 새 상품에 대한 추천 성능 확보(콜드 스타트 문제 해결)

메타 데이터 - 상품데이터(제목, 카테고리)

데이터 임배딩 - 상품을 저차원 벡터로 표현 - 학습 모델에 사용 - 제목은 Doc2Vec 으로 벡터로 변환 - 카테고리는 휴리스틱으로 사용자가 넣을수 있지만 뭐뭐해서 자동으로 학습하게 했다


순차적 패턴 학습 - RNN 다음에 뭐가 나올까(딥러닝 모델) or nlp - 모델 임베딩 백처, 구매 상품 목록, 추천 대상 상품 목록 - 추천점수,

last, avg 모델을 베이스 라인 모델로 사용 - doc2vec 모델로 제목만사용 카테고리는 학습이 필요하여 사용하지 않음 - last 최근 구매 상품 유사도 계산 - 최근 n개의 벡터를 사 평균으로 유사도 계산하여 점수 사용

rnn 제목 rnn2 제목 카테고리 이게 제일 좋고 last avg는 안좋음 rnn3 제목 카테고리 어텐션 (마지막 구매한 상품을 쿼리 백터로 가중평균을 구해서 추가 ) rnn4 제목 카테고리 어텐션 클릭 (클릭 패턴을 쿼리 백터로 가중평균을 컨택스트로만들어서 보라색 백터를 만들어서 추가)

추론 abcde 입력을 abcd까지 계산해서 e와 같다면 가깝게 다르면 멀게

모델 결과 벡터와 가까운 상품 추천

평가 10개 상품 예측 하나라도 맞으면 ok

인퍼런스(추론) 프레딕션(예언)