View Full Version : Биоинформатика, китайский талисман и борьба со спамом.
Jahontova
04-01-2005, 18:15
Айбиэмщики борются со спамом при помощи алгоритма Chung-Kwei, названного так в честь фэншуйского талисмана против злых духов.
Он сделаан на основе алгоритма Teiresias, который был разработан группой биотехнологов Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме.
Благодаря своим уникальным особенностям во время испытаний алгоритм Chung-Kwei корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды.
Chung-Kwei вставлен в программу SpamGuru.
А, британские учёные создали эмбрион без будущего. У него два набора материнских хромосом. Они "обманули" яйцеклетку, используя фермент, известный как "искра жизни" ("spark of life", другие названия C-zeta и PLC-zeta) .
Но эмбрион этот достигает только стадии бластоцита, то есть зародыш вырастает до 4-5 дней.
Пока что...
Про спам - не верю :)
Пример: Как могхно написать слово Viagra
Viagra
V1agra
V.agra
V-i-a-g-r-a
....
Практически, спам настолько приближен к обычному письму, что, только зная горы дополнительной информации, его можно отфильтровать.
Jahontova
04-01-2005, 18:51
:)
Chung-Kwei работает не со словами, а с последовательностями символов, что делает его более эффективным. Разработчики заявляют, что Chung-Kwei — это единственный в мире спам-фильтр, который способен работать с паттернами на уровне отдельных символов, что делает его практически нечувствительным к замене букв. Например, для обхода байесовских фильтров спамеры часто заменяют русские "у", "о", "а" на соответствующие латинские или английских гласные, что порождает огромное количество новых «слов». С Chung-Kwei такое не проходит — в него изначально можно заложить базу символов-"синонимов", потому что в генетических последовательностях наблюдается абсолютно такие же аномалии.
Яхонтова
В геноме чередуются всего 4 основных составляющих (забыл термин). При общем количестве пар в много миллионов есть вероятность найти паттерн.
Когда букв и символов около 40 а длинна сообщения около 200-300, то здесь 99% вероятность невозможна
Вы затрагиваете весьма "больную" тему. Интересно было бы послушать мыслящую публику.
1) Что такое "спам"? Как минимум, нужно определение.
2) Каковы допустимые средства борьбы с этим?
Очевидно, что просто ходить и бить спамеров по головам нельзя - не поймут-с.
1) Рассылка комерческой рекламы провит воли пользователя. Сам термин пошел по аналогии с каким-то комедийным моментом.
2) Допустимые средства?
- Ну, иметь длинные и заковыристые е-маила, один способ. Спам-снифферы часто находят короткие адресса перебором.
- Многие компании/провайдеры пользуются разными фильтрам основанными, как на поисках ключевых слов (типа виагра и п*нис), так и на разных других параметрах письма.
- Хотя, будующее в борьбе со спамом, скорее всего, состоит в создании проверенных пользовательских листов, когда вы будите автоматически посылать в карзину письма от других адрессатов.
- Плюс, взымание минимальной платы за посылку одного письма (1 цент, например) может сделать весь спам - слишком дорогим удовольствием. Ксожалению, данный мехамизм требует жесткой регулировки в интернете, что, само по себе, врядли возможно.
Первоначальное сообщение от Яхонтова
Айбиэмщики борются со спамом при помощи алгоритма Chung-Kwei, названного так в честь фэншуйского талисмана против злых духов.
Он сделаан на основе алгоритма Teiresias, который был разработан группой биотехнологов Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме.
Благодаря своим уникальным особенностям во время испытаний алгоритм Chung-Kwei корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды.
Chung-Kwei вставлен в программу SpamGuru.
А, британские учёные создали эмбрион без будущего. У него два набора материнских хромосом. Они "обманули" яйцеклетку, используя фермент, известный как "искра жизни" ("spark of life", другие названия C-zeta и PLC-zeta) .
Но эмбрион этот достигает только стадии бластоцита, то есть зародыш вырастает до 4-5 дней.
Пока что...
Зачем пытаешься поразить неопознанным для себя материалом?
Jahontova
05-01-2005, 23:27
Бегемот
Определения из глоссария:
Спам- массовая рассылка рекламных объявлений по электронной почте без согласия на это получателей.
Спам - непрошенное рекламное сообщение, сетевой мусор, мусорная почта, рассылаемые по электронной почте в личные почтовые ящики или телеконференции. Рассылка спама считается нарушением этикета и правил применения компьютерных сетей.
Биоинформатика - Биологическая информатика - наука, изучающая общие закономерности и особенности реализации информационных процессов в биосфере.
Алгоритм - Алгоритм - точное предписание исполнителю совеpшить определенную последовательность действий для достижения поставленной цели за конечное число шагов.
Информация - это содержательное описание объекта или явления.
Подходы к определению количества информации:
энтропийный, алгоритмический, комбинаторный, семантический, прагматический.
Информационное взаимодействие - взаимодействие объектов, приводящее к изменению знаний, хотя бы у одного объекта.
Информационное воздействие может быть физическим, сигнальным, лингвистическим ,семантическим и прагматическим. (Разделение условно)
Спектр информационный взаимодействий:
1 класс- взаимодействие искусственных систем
2 класс- взаим-ие смешанных систем
3 класс - взаим- ие живых систем.
Для физического, сигнального и лингвистического информационного взаимодействий выведены закономерности.
Для семантического и прагматического взаим-ий стройных закономерностей пока нет.
Следовательно, спам на все 100% просчитать невозможно, потому это информационное взаимодействие 2 класса.
Jahontova
05-01-2005, 23:29
Joi
Я не пытаюсь поразить. Я говорю о том, о чём мне интересно поговорить.
to Яхонтова
Браво! Великолепно!
Сразу очевидный вывод: цитатата в Вашем первом сообщении не соответствует действительности. Журналисты или что-то упростили, или что-то не поняли.
Поскольку: спам на все 100% просчитать невозможно, потому это информационное взаимодействие 2 класса.
Следующее.
Спам- массовая рассылка рекламных объявлений по электронной почте без согласия на это получателей.
Как минимум требует определения понятий "массовая" (больше 1? 2? 10?), "реклама" (Фродо жив - рекламное объявление?), "согласие получателей" (только в письменной форме, заверенной нотариусом?)
Без этих определений информация, с которой началась дискуссия, выглядит сомнительно. Кстати, для оценки эффективности алгоритма хорошо бы знать - были ли отфильтрованные письма копиями друг друга, или, все-таки, текст в них был разный.
Jahontova
06-01-2005, 17:29
Бегемот
Да, меня не журналисты интересуют, а то, возможно ли создание рабочего алгоритма для неживой системы, если исходные данные берутся из алгоритма живой системы.
Я об этом позже напишу, мне сейчас некогда.
И приведите цитату из первого сообщения:)
Бузусловно возможно. Норберт Винер писал об этом еще в 30-х годах. На этом принципе построены самонаводящиеся снаряды и ТАУ. Более того, "отец кибернетики" предполагал использование моделей поведения не просто живых систем, а человеческих социумов, для построения искусственных систем сцелью дальнейшего управления этими социумами.
У меня же не столь глобальные вопросы. Не могу сформулировать корректное определение понятия "спам".
Самое старое определение, котороле я нашел, звучит так: "Спам - навязчивое предложение сексуальных услуг со стороны портовых шлюх". Это, кажется, 19 век.
Все кричат "спам, спам". Чего-то меряют, проценты, эффективность. А четкого определения (желательно - законодателем) нет. Вот и пытаюсь добиться формулирования понятия силами посетителей форума.
Уже дали...
Те определения спама, которые приведены выше, противоречивы, не полны и, похоже, не конструктивны.
Складывается впечатление, что оценка информационного объекта как "спам" есть чисто субъективное дело. А это значит, что все инструментальные средства, вроде вышеупомянутого алгоритма, бесполезны. Вообще, никакой анализ текста не позволяет утвержать, что это пример массовой рассылки, равно как и рассылки без согласия получателя.
Jahontova
08-01-2005, 16:40
Бегемот
Ну, я думаю, что это, в основном, предложения рекламного характера на коммерческой основе. Но тело письма несёт в себе определённую информацию, которую нужно классифицировать по степени полезности. А, степень полезности - это принцип распознавания живой клеткой вредных веществ и полезных веществ.
В таком случае, непонятно, откуда у людей появляются вредные привычки? Это же натуральный спам. Также и с неживой системой. Надо научить её распознавать, но отличие в том, что у живой системы спам зависит ещё и от чувственно-эмоционального фона, а у неживой этого фона нет.
Но, так как это взаимодействие 2 класса, и неживая система не может классифицировать эмоциональный фон живой системы, то 100%: ое распознавание спама невозможно.
Но в статье про 100% и не сказано.
P.S.
Спамеров по головам бить не надо. Надо сделать рефлексивную систему, как у Павлова. Он тебе спам, а твой почтовый ящик автоматически высылает письмо, где написано,что спамера вызывают в суд для уплаты штрафа за моральный ущерб. И всякие там примамбасы для устрашения. Айпи адрес, зона действия. Или написать, что спамеров, законом от такого-то числа, приравняли к хакерам.
И, как грится: "Прости меня, мама, хорошего сына..."
Первоначальное сообщение от Бегемот
Те определения спама, которые приведены выше, противоречивы, не полны и, похоже, не конструктивны.
Складывается впечатление, что оценка информационного объекта как "спам" есть чисто субъективное дело. А это значит, что все инструментальные средства, вроде вышеупомянутого алгоритма, бесполезны. Вообще, никакой анализ текста не позволяет утвержать, что это пример массовой рассылки, равно как и рассылки без согласия получателя.
Конструтивный вы наш :).
Определение, которое дал я - я взял из какого-то словаря. Там даже сказанно, откуда пошел термин. Что в данном определении "неконсруктивно"? Только без общих слов, пожалуйсто, а то, в аших ответак конструктивности малова-то.
Да, для кого инфа, где купить виагры может быть и полезна. Дело чисто субъективное. Практически, "спам" пошло из одного комедийного фильма, где мужик рекламировал мясное блюдо постоянно напевая "спам-спам-спам", при этом заглушая любую беседу.
Если бы все было так просто и точное определение (на 100%) существовало, то проблемы бы уже не было.
Давайте не трогать чувственно-эмоциональный фон. Уже и без него достаточно смешно.
тело письма несёт в себе определённую информацию, которую нужно классифицировать по степени полезности
Степень полезности - понятие субъективное. Причем меняющееся во времени. Стало быть, единственный непротиворечивый подход - настраиваемый фильтр на стороне получателя с функцией обязательной регулярной перенастрйки. А все коллективные средства защиты (фильтры/списки на серверах) - ересь и обман.
И одно дополнительное замечание: разница между гуманитарным и инженерным стилями мышления.
Для инженера (программиста/математика...) невозможна формулировка задачи в виде:Ну, я думаю, что это, в основном
Необходимо полное и исчерпывающее определение. Позже, на стадии реализации, частью этого определения можно будет пренебречь.
А пока я вижу только одно конструктивное опеределение спама: пользователи АОЛ за прошедший год прислали на 10% жалоб на спам меньше, чем за предыдущий. Вот так (только!) и можно получить какие-то цифровые оценки.
Что, честно говоря, меня не радует - какой-то туман: "о чем, бишь, нечто? - Обо всем!"
To zuber.
Примите мою искреннюю благодарность за то внимание, которые Вы уделили пропущенной мною букве. Я буду черезвычайно Вам признателен, если Вы и далее будете столь же тщательно изучать мои тексты и столь же остроумно указывать мне на орфографические ошибки.
Теперь по сути. Есть явление. Оно мешает жить. Предлагаются средства борьбы. Дав (сформулировав/создав/придумав) полное (корректное/исчерпывающее) определение мы, тем самым, отсекаем массу неэффективных, не для этого предназначенных инструментов и экономим свое время и деньги.
to Яхонтова
"Надо сделать рефлексивную систему, как у Павлова."
Не надо. Павлов давал собачке похлебку по звонку. У собачки появлялась слюна. Потом он убирал похлебку и оставлял только звонок. А слюна все равно появлялась. Т.е. происходило "ложное срабатывание".
А ввести наказание по суду для спамеров нельзя, по крайней мере до тех пор пока нет определения понятия "спам". Более того: нельзя использовать технологии активного подавления.
[russian.fi, 2002-2014]