Просмотр одиночного сообщения
Old 27-04-2021, 18:24   #800
alexer
Пользователь
 
Сообщений: 4,077
Проживание:
Регистрация: 02-09-2016
Status: Offline
Цитата:
Сообщение от lor2
так я не разговариваю с тобой на птичьем языке. я к тебе как к Доктору обратился за помощью вот с такой вот проблемой. данные же ведь. дата. саенз. анализ. и те де и те пе.

Давай разбираться: ты утверждаешь, что у тебя 2 миллиарда записей, из которых в память тебе помещается не более 10% и ты из них хочешь сформировать список без повторений? Я правильно тебя теперь понял?
Например, можно считать SHA, загружая элементы потоком. Из получившихся значений SHA формируй хэш-таблицу и выкидывай себе повторения.
Впрочем, если твои данные никак не структурированны, то от необходимости считать SHA для каждого элемента ты не убежишь. Более того, один элемент может быть очень большим и SHA может быть считать долго, тогда это уже другая история.
Если знаешь какой-то очень эффективный способ, с удовольствием почитаю.
 
0
 
0
    Ответить с цитированием