Цитата:
Сообщение от lor2
я чуть выше сказал про инструменты и про то что это не черный ящик куда взял-положил. если в память не лезет то что толку хеши считать ты верно заметил, что в зависимости от типа данных это сэкономит память или не сэкономит. но даже 256 бит или сколько там + издержки помноженное на 2 миллиарда это всё-равно много.
про инструменты опять же.. ну во-первых, какие. во-вторых, всё-равно НЕТ инструмента чтоб переложить в него два лярда записей в один конец трубы и получить х записей в другом. надо сделать ЧТО-ТО с ЧЕМ-ТО.
кстати, добавление элемента в хэш-карту с равномерным распределением емнип не Н а 1 сам процесс добавления через итерацию разумеется Н.
|
Достал, посчитал хэш, засунул в словарь вместе со ссылкой на исходную запись. Если такой ключ (хэш) в словаре уже есть, значит дубликат, идём дальше. Обработанный элемент выгружаем из памяти, переходим к следующему. Здесь исхожу из посылки, что хотя бы один элемент за раз в память влазит. В итоге будет в словаре список ссылок на недублирующиеся записи. Это решает задачу в том виде, в котором ты ее сформулировал.
А инструмент в твоём случае - это база данных, дистинкт в которой реализует решение собственно задачи. Очень нетривиально реализует, если база распределённая.
|