У меня есть огромная и беспорядочная база данных объектов, в которой много дубликатов. Адреса были введены таким случайным образом, что я буду делать много запросов, чтобы выявить возможные дубликаты. Моя цель состоит в том, чтобы в каждом запросе идентифицировать возможные дубликаты, а затем человек фактически просматривает список и отмечает каждую пару либо как не дублирующую, либо как возможную дублирующую.
Когда кто-то помечает пару объектов как не дублирующую, я хочу записать эту пару данных в таблицу, чтобы, когда один из запросов в противном случае вернул бы эту пару, вместо этого она была бы исключена. Я в недоумении, как это сделать. В настоящее время я использую MS Access для SQL-запросов и имею элементарные визуальные базовые знания.
Пример того, как это должно работать Запрос 1 выполняется для поиска дубликатов по городу и названию компании. Это возвращает нас к тому, что объекты 1 и 2, 3 и 4, 5 и 6 являются возможными дубликатами. Первые две пары являются дубликатами, которые мне нужно исправить, но 5 и 6 действительно являются отдельными объектами. Я нажимаю, чтобы записать, что объекты 5 и 6 не являются дубликатами, что записывает данные в таблицу. Когда запрос 1 выполняется снова, он не возвращает, что 5 и 6 являются возможными дубликатами.
Для справки, дубликаты адресов выглядят примерно так, поэтому должно быть несколько запросов.
Frank's Garage, 123 2nd St
Frank's Garage LLC, LLC, 123 Second st
Frank's Garage and muffler, 123 2nd Street
Frank's, 12 2nd st
Любая помощь высоко ценится!