Документ описывает эффективную кластеризацию каталогов из 18 миллионов товаров для рекомендательного сервиса. В нем представлены технологии работы с большими данными, включая использование Apache Spark и алгоритмов кластеризации, таких как k-means и локально чувствительное хеширование. Указано на улучшение качества персональных рекомендаций и проблемы, связанные с алгоритмами MapReduce.