Финляндия по-русски - Биоинформатика, китайский талисман и борьба со спамом.

View Full Version : Биоинформатика, китайский талисман и борьба со спамом.

Jahontova

04-01-2005, 17:15

Айбиэмщики борются со спамом при помощи алгоритма Chung-Kwei, названного так в честь фэншуйского талисмана против злых духов.
Он сделаан на основе алгоритма Teiresias, который был разработан группой биотехнологов Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме.
Благодаря своим уникальным особенностям во время испытаний алгоритм Chung-Kwei корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды.
Chung-Kwei вставлен в программу SpamGuru.

А, британские учёные создали эмбрион без будущего. У него два набора материнских хромосом. Они "обманули" яйцеклетку, используя фермент, известный как "искра жизни" ("spark of life", другие названия C-zeta и PLC-zeta) .
Но эмбрион этот достигает только стадии бластоцита, то есть зародыш вырастает до 4-5 дней.
Пока что...

zuber

04-01-2005, 17:34

Про спам - не верю :)

Пример: Как могхно написать слово Viagra

Viagra
V1agra
V.agra
V-i-a-g-r-a
....

Практически, спам настолько приближен к обычному письму, что, только зная горы дополнительной информации, его можно отфильтровать.

Jahontova

04-01-2005, 17:51

:)
Chung-Kwei работает не со словами, а с последовательностями символов, что делает его более эффективным. Разработчики заявляют, что Chung-Kwei — это единственный в мире спам-фильтр, который способен работать с паттернами на уровне отдельных символов, что делает его практически нечувствительным к замене букв. Например, для обхода байесовских фильтров спамеры часто заменяют русские "у", "о", "а" на соответствующие латинские или английских гласные, что порождает огромное количество новых «слов». С Chung-Kwei такое не проходит — в него изначально можно заложить базу символов-"синонимов", потому что в генетических последовательностях наблюдается абсолютно такие же аномалии.

zuber

04-01-2005, 17:58

Яхонтова
В геноме чередуются всего 4 основных составляющих (забыл термин). При общем количестве пар в много миллионов есть вероятность найти паттерн.

Когда букв и символов около 40 а длинна сообщения около 200-300, то здесь 99% вероятность невозможна

Бегемот

05-01-2005, 21:33

Вы затрагиваете весьма "больную" тему. Интересно было бы послушать мыслящую публику.
1) Что такое "спам"? Как минимум, нужно определение.
2) Каковы допустимые средства борьбы с этим?
Очевидно, что просто ходить и бить спамеров по головам нельзя - не поймут-с.

zuber

05-01-2005, 21:56

1) Рассылка комерческой рекламы провит воли пользователя. Сам термин пошел по аналогии с каким-то комедийным моментом.

2) Допустимые средства?
- Ну, иметь длинные и заковыристые е-маила, один способ. Спам-снифферы часто находят короткие адресса перебором.
- Многие компании/провайдеры пользуются разными фильтрам основанными, как на поисках ключевых слов (типа виагра и п*нис), так и на разных других параметрах письма.

- Хотя, будующее в борьбе со спамом, скорее всего, состоит в создании проверенных пользовательских листов, когда вы будите автоматически посылать в карзину письма от других адрессатов.

- Плюс, взымание минимальной платы за посылку одного письма (1 цент, например) может сделать весь спам - слишком дорогим удовольствием. Ксожалению, данный мехамизм требует жесткой регулировки в интернете, что, само по себе, врядли возможно.

Joi

05-01-2005, 22:15

Первоначальное сообщение от Яхонтова
Айбиэмщики борются со спамом при помощи алгоритма Chung-Kwei, названного так в честь фэншуйского талисмана против злых духов.
Он сделаан на основе алгоритма Teiresias, который был разработан группой биотехнологов Научно-исследовательского центра Томаса Уотсона компании IBM. Алгоритм Teiresias предназначался для поиска в цепочках ДНК и других аминокислотах повторяющихся последовательностей (паттернов), которые часто оказываются генетическими структурами, играющими важную роль в организме.
Благодаря своим уникальным особенностям во время испытаний алгоритм Chung-Kwei корректно идентифицировал 64.665 из 66.697 спаммерских писем, а в процессе обработки 60 тыс. нормальных писем ошибся только однажды.
Chung-Kwei вставлен в программу SpamGuru.

А, британские учёные создали эмбрион без будущего. У него два набора материнских хромосом. Они "обманули" яйцеклетку, используя фермент, известный как "искра жизни" ("spark of life", другие названия C-zeta и PLC-zeta) .
Но эмбрион этот достигает только стадии бластоцита, то есть зародыш вырастает до 4-5 дней.
Пока что...

Зачем пытаешься поразить неопознанным для себя материалом?

Jahontova

05-01-2005, 22:27

Бегемот
Определения из глоссария:
Спам- массовая рассылка рекламных объявлений по электронной почте без согласия на это получателей.

Спам - непрошенное рекламное сообщение, сетевой мусор, мусорная почта, рассылаемые по электронной почте в личные почтовые ящики или телеконференции. Рассылка спама считается нарушением этикета и правил применения компьютерных сетей.

Биоинформатика - Биологическая информатика - наука, изучающая общие закономерности и особенности реализации информационных процессов в биосфере.

Алгоритм - Алгоритм - точное предписание исполнителю совеpшить определенную последовательность действий для достижения поставленной цели за конечное число шагов.

Информация - это содержательное описание объекта или явления.
Подходы к определению количества информации:
энтропийный, алгоритмический, комбинаторный, семантический, прагматический.

Информационное взаимодействие - взаимодействие объектов, приводящее к изменению знаний, хотя бы у одного объекта.

Информационное воздействие может быть физическим, сигнальным, лингвистическим ,семантическим и прагматическим. (Разделение условно)

Спектр информационный взаимодействий:
1 класс- взаимодействие искусственных систем
2 класс- взаим-ие смешанных систем
3 класс - взаим- ие живых систем.

Для физического, сигнального и лингвистического информационного взаимодействий выведены закономерности.
Для семантического и прагматического взаим-ий стройных закономерностей пока нет.
Следовательно, спам на все 100% просчитать невозможно, потому это информационное взаимодействие 2 класса.

Jahontova

05-01-2005, 22:29

Joi
Я не пытаюсь поразить. Я говорю о том, о чём мне интересно поговорить.

Бегемот

06-01-2005, 16:06

to Яхонтова
Браво! Великолепно!
Сразу очевидный вывод: цитатата в Вашем первом сообщении не соответствует действительности. Журналисты или что-то упростили, или что-то не поняли.
Поскольку: спам на все 100% просчитать невозможно, потому это информационное взаимодействие 2 класса.
Следующее.
Спам- массовая рассылка рекламных объявлений по электронной почте без согласия на это получателей.
Как минимум требует определения понятий "массовая" (больше 1? 2? 10?), "реклама" (Фродо жив - рекламное объявление?), "согласие получателей" (только в письменной форме, заверенной нотариусом?)
Без этих определений информация, с которой началась дискуссия, выглядит сомнительно. Кстати, для оценки эффективности алгоритма хорошо бы знать - были ли отфильтрованные письма копиями друг друга, или, все-таки, текст в них был разный.

Jahontova

06-01-2005, 16:29

Бегемот
Да, меня не журналисты интересуют, а то, возможно ли создание рабочего алгоритма для неживой системы, если исходные данные берутся из алгоритма живой системы.
Я об этом позже напишу, мне сейчас некогда.
И приведите цитату из первого сообщения:)

Бегемот

07-01-2005, 19:30

Бузусловно возможно. Норберт Винер писал об этом еще в 30-х годах. На этом принципе построены самонаводящиеся снаряды и ТАУ. Более того, "отец кибернетики" предполагал использование моделей поведения не просто живых систем, а человеческих социумов, для построения искусственных систем сцелью дальнейшего управления этими социумами.
У меня же не столь глобальные вопросы. Не могу сформулировать корректное определение понятия "спам".
Самое старое определение, котороле я нашел, звучит так: "Спам - навязчивое предложение сексуальных услуг со стороны портовых шлюх". Это, кажется, 19 век.
Все кричат "спам, спам". Чего-то меряют, проценты, эффективность. А четкого определения (желательно - законодателем) нет. Вот и пытаюсь добиться формулирования понятия силами посетителей форума.

zuber

07-01-2005, 20:47

Уже дали...

Бегемот

08-01-2005, 15:22

Уже дали...
Те определения спама, которые приведены выше, противоречивы, не полны и, похоже, не конструктивны.
Складывается впечатление, что оценка информационного объекта как "спам" есть чисто субъективное дело. А это значит, что все инструментальные средства, вроде вышеупомянутого алгоритма, бесполезны. Вообще, никакой анализ текста не позволяет утвержать, что это пример массовой рассылки, равно как и рассылки без согласия получателя.

Jahontova

08-01-2005, 15:40

Бегемот
Ну, я думаю, что это, в основном, предложения рекламного характера на коммерческой основе. Но тело письма несёт в себе определённую информацию, которую нужно классифицировать по степени полезности. А, степень полезности - это принцип распознавания живой клеткой вредных веществ и полезных веществ.
В таком случае, непонятно, откуда у людей появляются вредные привычки? Это же натуральный спам. Также и с неживой системой. Надо научить её распознавать, но отличие в том, что у живой системы спам зависит ещё и от чувственно-эмоционального фона, а у неживой этого фона нет.
Но, так как это взаимодействие 2 класса, и неживая система не может классифицировать эмоциональный фон живой системы, то 100%: ое распознавание спама невозможно.
Но в статье про 100% и не сказано.
P.S.
Спамеров по головам бить не надо. Надо сделать рефлексивную систему, как у Павлова. Он тебе спам, а твой почтовый ящик автоматически высылает письмо, где написано,что спамера вызывают в суд для уплаты штрафа за моральный ущерб. И всякие там примамбасы для устрашения. Айпи адрес, зона действия. Или написать, что спамеров, законом от такого-то числа, приравняли к хакерам.
И, как грится: "Прости меня, мама, хорошего сына..."

zuber

08-01-2005, 15:55

Первоначальное сообщение от Бегемот
Те определения спама, которые приведены выше, противоречивы, не полны и, похоже, не конструктивны.
Складывается впечатление, что оценка информационного объекта как "спам" есть чисто субъективное дело. А это значит, что все инструментальные средства, вроде вышеупомянутого алгоритма, бесполезны. Вообще, никакой анализ текста не позволяет утвержать, что это пример массовой рассылки, равно как и рассылки без согласия получателя.

Конструтивный вы наш :).

Определение, которое дал я - я взял из какого-то словаря. Там даже сказанно, откуда пошел термин. Что в данном определении "неконсруктивно"? Только без общих слов, пожалуйсто, а то, в аших ответак конструктивности малова-то.
Да, для кого инфа, где купить виагры может быть и полезна. Дело чисто субъективное. Практически, "спам" пошло из одного комедийного фильма, где мужик рекламировал мясное блюдо постоянно напевая "спам-спам-спам", при этом заглушая любую беседу.

Если бы все было так просто и точное определение (на 100%) существовало, то проблемы бы уже не было.

Бегемот

08-01-2005, 16:13

Давайте не трогать чувственно-эмоциональный фон. Уже и без него достаточно смешно.
тело письма несёт в себе определённую информацию, которую нужно классифицировать по степени полезности
Степень полезности - понятие субъективное. Причем меняющееся во времени. Стало быть, единственный непротиворечивый подход - настраиваемый фильтр на стороне получателя с функцией обязательной регулярной перенастрйки. А все коллективные средства защиты (фильтры/списки на серверах) - ересь и обман.
И одно дополнительное замечание: разница между гуманитарным и инженерным стилями мышления.
Для инженера (программиста/математика...) невозможна формулировка задачи в виде:Ну, я думаю, что это, в основном
Необходимо полное и исчерпывающее определение. Позже, на стадии реализации, частью этого определения можно будет пренебречь.
А пока я вижу только одно конструктивное опеределение спама: пользователи АОЛ за прошедший год прислали на 10% жалоб на спам меньше, чем за предыдущий. Вот так (только!) и можно получить какие-то цифровые оценки.
Что, честно говоря, меня не радует - какой-то туман: "о чем, бишь, нечто? - Обо всем!"
To zuber.
Примите мою искреннюю благодарность за то внимание, которые Вы уделили пропущенной мною букве. Я буду черезвычайно Вам признателен, если Вы и далее будете столь же тщательно изучать мои тексты и столь же остроумно указывать мне на орфографические ошибки.
Теперь по сути. Есть явление. Оно мешает жить. Предлагаются средства борьбы. Дав (сформулировав/создав/придумав) полное (корректное/исчерпывающее) определение мы, тем самым, отсекаем массу неэффективных, не для этого предназначенных инструментов и экономим свое время и деньги.

Бегемот

08-01-2005, 22:53

to Яхонтова
"Надо сделать рефлексивную систему, как у Павлова."
Не надо. Павлов давал собачке похлебку по звонку. У собачки появлялась слюна. Потом он убирал похлебку и оставлял только звонок. А слюна все равно появлялась. Т.е. происходило "ложное срабатывание".
А ввести наказание по суду для спамеров нельзя, по крайней мере до тех пор пока нет определения понятия "спам". Более того: нельзя использовать технологии активного подавления.

[russian.fi, 2002-2014]