Есть ли "роботы", которые могут прочитать "капчу", и что мешает создать такую программу?

333
2
0
6 ноября
19:19
Фотография: http://captcha.su/
ноябрь
2015

Сначала очень упрощенно о том, как вообще работают системы распознавания готовых текстов (распознание текстов в процессе написания -- другая задача).

Текст делится на отдельные символы. Каждый отдельный символ приводится к масштабу символов хранящихся в базе данных и сравниваются по точкам, минимум отличий по точкам -- символ считается считанным (вообще там хитрая сложная система -- изображение символа делится на участки и для каждого участка огромного множества образцов считается вероятность того, что точка черная).

На небольшом фрагменте текста программа пытается сравнивать полученный текст со словарями и уточнять результаты, потом обрабатывать текст полностью получив уточнения шаблонов.

Если качество печати низкое, то отличий от шаблонов будет слишком много. В этом случае программа пытается распознать структуру символа и сравнить её со структурами описанными в базе. Структура описывается как граф (объекты представляются как вершины, или узлы графа, а связи — как дуги, или рёбра). wikipedia.org)

Также буквы можно представлять как набор признаков -- "а" -- кружок+линия справа+линия сверху. Это очень универсальный способ, но требует много ресурсов.

Из того, как работают эти способы мне кажется ясным, что текст испорченный специально прочитать машинно почти невозможно. Если бы это был большой текст с мусором, то мусор можно было бы попытаться отсеять с помощью статистики, есть разработанные теории отделения сигнала от шума. Но у нас только несколько испорченных букв. Кроме того эти несколько букв в классической капче не связаны друг с другом, не являются словом, поэтому поиск с шаблоном по словарю тут тоже не помогает. Кроме того капча не даёт попыток её угадать, выводится каждый раз заново, мусор добавляется разный, после нескольких попыток блокирует -- не даёт собирать статистику.

Да, как написали другие авторы, некоторые капчи всё-таки взламывают. Но эти взломы основываются на недочётах реализации капчи. Примеры: intsystem.org intsystem.org Ошибки реализации взломанных систем очевидны. Одинаковый мусор, одинаковый текст и тому подобное.

Также рекомендую почитать про ReCAPTCHA wikipedia.org Это интересная штука. Только вчера я думал о том, как много книг (на примере вопроса здесь по истории астрономии), очень интересных книг, остаются неоцифрованными, а предлагаются к чтению в формате картинок. Оцифровка -- очень трудный процесс, требует много ресурсов и человеческого участия. Гугл придумал как подключить к этому людей не сильно их обременяя ))

ps Кстати, вот небольшой текст по распознаванию на хабрахабр habrahabr.ru

2
3
ноябрь
2015

Такие "роботы" существуют, что собственно и привело к усложнению "капч". С другой стороны, есть сервисы предоставляющие услуги настоящих людей по разгадыванию "капч".

0
1
Если вы знаете ответ на этот вопрос и можете аргументированно его обосновать, не стесняйтесь высказаться
Ответить самому
Выбрать эксперта