Цитата:
Сообщение от lor2
так я не разговариваю с тобой на птичьем языке. я к тебе как к Доктору обратился за помощью вот с такой вот проблемой. данные же ведь. дата. саенз. анализ. и те де и те пе.
|
Давай разбираться: ты утверждаешь, что у тебя 2 миллиарда записей, из которых в память тебе помещается не более 10% и ты из них хочешь сформировать список без повторений? Я правильно тебя теперь понял?
Например, можно считать SHA, загружая элементы потоком. Из получившихся значений SHA формируй хэш-таблицу и выкидывай себе повторения.
Впрочем, если твои данные никак не структурированны, то от необходимости считать SHA для каждого элемента ты не убежишь. Более того, один элемент может быть очень большим и SHA может быть считать долго, тогда это уже другая история.
Если знаешь какой-то очень эффективный способ, с удовольствием почитаю.
|