SlideShare a Scribd company logo
Как найти и объединить дубликаты? Подходы и решения
СодержаниеСостав работОценка качества данныхОчистка данныхПоиск  и слияние похожих записейКомпоненты системы поиска дубликатов
Состав работИсключениедубликатовАнализ Данных Поиск дубликатовСлияние записей Управление правилами объединения записейОценка текущего качества данныхОчистка данныхПриведение форматов, добавление недостающих данных, исправление ошибок
Оценка качества данныхПростая статистикаЧастотный анализСоответствие форматамСсылочная целостность
Простая статистика для набора ключевых атрибутовКлючевые атрибуты = {Фамилия, Имя, Отчество, Пол, Почтовый адрес}192 983(100%)163 088(84%)156 870(81%)6 218(3%)Количество наборов данныхКоличество уникальных наборов данныхКоличество дублирующихся наборов данныхКоличество записей
Простая статистика для атрибутаАтрибут =  {Фамилия}3 0912 196895285Количество ФамилийКоличество повторяющихся фамилийКоличество ПустыхЗначенийКоличество уникальныхфамилий
Частотный анализ данныхАтрибут =  {Фамилия}ИвановКозловКовалевЖукНовикНовиковИвановаМорозЗайцевСтрахователь1 818 записей
Соответствие  форматуАтрибут =  {Номер паспорта}89,80%10,20%Номер паспорта должен содержать 7 цифр
Оценка ссылочной целостностиАтрибут =  {Фамилия}Клиенты79,74%20,26%100 %Адреса20,26%  или 39 093 записей о клиентах не имеют  данных о почтовом адресе
Результаты проверки данных
Очистка данныхПриведение форматовДобавление недостающих данныхКорректировка ошибок
Приведение форматовРезультирующие данныеИсходные данныеИмяОтчествоФамилияСерияНомерПетров Петр ПетровичMP1234567ИМЯПетрОТЧЕСТВОПетровичПетровФАМИЛИЯРазделение полейСерияMP1234567Номер
Добавление недостающих данныхПолИмяОтчествоФамилияИсходные данныеПетрПетровичВнешние справочникиСправочник ИменПетровТип имениМужскоеРезультирующие данныеИмяПетрИМЯПетрОТЧЕСТВОПетровичПетровФАМИЛИЯПолМУЖСКОЙ
Корректировка ошибокИмяОтчествоФамилияСерияНомерКириллица ->латиницаРезультирующие данныеИсходные данныеMPПетр ПетровичИмяПетрПетровичОтчествоПетровичПетровПетровФамилияСерияMP12345671234567Номер
Результаты проверки данных
Исключение дубликатовПоиск дубликатовСлияние данныхРабота над ошибками
Алгоритм поиска дубликатовИсточник 1Источник 2Идентифицирующие атрибутыМетодсравненияВесовой коэффициентДистанция====1ПетрПетрИмяJaro-Winkler101ПетрПетрОтчествоJaro-Winkler100,89ПетровПитровФамилияJaro-Winkler151MP1234567MP 1234567ПаспортJaro-Winkler20N∑(Дистанция х Весовой коэффициент )Результатсравнения10*1+10*1+0,89*15+20*11РЕЗУЛЬТАТ0,970,97==110+10+15+20Весовой коэффициент∑1Нижний порог0,75<НовыйДубликат>Верхний порог0,95Дубликат
Блокировки1 000 записей о клиентах = 1 000 000 операций сравнения1 000 000 записей о клиентах = 1 000 000 000 0000 операций сравненияКод похожестиИмяФамилия№ ПаспортаОтчествоГородИИИ123ВитебскИванИванов1234567ИвановичВитебскВитебскППП765Витебск7654321ПетрПетровПетровичЗаписи подлежащие сравнениюСАН123Минск1237654МинскНиколаевичАндрейСидоровМинскСАН123Минск1237645СидоровАндрейНиколаевич
Результаты поискаS = Индекс похожестиS <= 0,75S >= 0,970,75 < S < 0,97УникальныезаписиПодозрительныезаписиДубликаты
Объединение записейЗапись 1Формирование итоговой записиИмяОтчествоФамилияСерияНомерИмяОтчествоФамилияСерияНомерИмяОтчествоФамилияСерияНомерMPMPMPНиколаевичМаксимМаксимМаксимИтоговая записьАстарховНиколаевич1234576ОстарховЗапись 21234567НиколаевичОстархов1234567
Работа над ошибкамиЗапись 1 (до слияния)Разделение записи и восстановление исходной информацииИмяОтчествоФамилияСерияНомерИмяОтчествоФамилияСерияНомерИмяОтчествоФамилияСерияНомерMPMPMPНиколаевичМаксимМаксимМаксимИтоговая записьАстарховНиколаевич1234576ОстарховЗапись 2 (до слияния)1234567НиколаевичОстархов1234567
Компоненты системы поиска дубликатовМЕХАНИЗМЫ РАЗДЕЛЕНИЯ ЗАПИСЕЙБИБЛИОТЕКА ПРАВИЛМЕХАНИЗМЫ ОБЪЕДИНЕНИЯ ЗАПИСЕЙИСДАННЫЕ О КЛИЕНТАХМЕХАНИЗМ ОЦЕНКИ КАЧЕСТВА ДАННЫХАВТОМАТИЗИРОВАННЫЕВ РУЧНУЮМЕХАНИЗМЫ ОЧИСТКИ ДАННЫХМЕХАНИЗМЫ ПОИСКА ДУБЛИКАТОВОТЧЕТНОСТЬАВТОМАТИЗИРОВАННЫЕВ РУЧНУЮ
ДемонстрацияTalend Open Profiler +MS SQL Server 2008 R2 Эффективное средство оценки качества данных
За кадромИнтервальный анализАнализ датКорреляционный анализАнализ текстовых значенийОтчетность
Спасибо за внимание!Максим ОСТАРХОВДиректор по развитию бизнеса в СНГТел.: +7 495 641 0206Моб.: + 7 915 400 8031Skype: m.ostarhovE-mail: m.ostarhov@itransition.comWeb: www.itransition.ru

More Related Content

PPTX
Customer data management - great tool for increasing sales
PDF
Itransition - engineering document management
PPTX
Talend Data Quality - Customer Data Management platform
PDF
Golden Rules [Best Practices] to tame the MDM/CDI Beast - A White Paper
PPTX
Microsoft Master Data Services - Master Data Management Tool
PDF
Master data services
PDF
SharePoint Collaboration Suite - Collaboration Platform
PPTX
Talend Data Quality - catalyst for CRM deployment
Customer data management - great tool for increasing sales
Itransition - engineering document management
Talend Data Quality - Customer Data Management platform
Golden Rules [Best Practices] to tame the MDM/CDI Beast - A White Paper
Microsoft Master Data Services - Master Data Management Tool
Master data services
SharePoint Collaboration Suite - Collaboration Platform
Talend Data Quality - catalyst for CRM deployment
Ad

How to find and merge duplicates? (approaches)