Специалисты компании Smart Engines создали нейросеть, способную считывать рукописный текст на русском языке без использования языковых правил. Алгоритм ориентируется исключительно на форму и соединения букв, что позволяет значительно сократить количество ошибок — особенно при распознавании редких слов.
Как рассказали в компании, технология уже внедряется в системах, используемых банками, операторами связи и другими крупными структурами. В качестве примера эффективности новой нейросети специалисты приводят слово «шиншилла». Оно выбрано из-за сложности — в кириллице буквы «ш», «л» и «и» при неаккуратном почерке могут сливаться, что сильно затрудняет распознавание.
Для обучения нейросети «Да Винчи» было использовано 1,2 миллиона строк искусственно сгенерированного текста, где равномерно встречались разные сочетания букв. Такой подход помог свести к минимуму ошибки и «галлюцинации» ИИ — когда система «угадывает» слово, которого на самом деле нет.
Гендиректор Smart Engines Владимир Арлазаров пояснил, что главная цель проекта — добиться точного распознавания именно того, что написано, без додумываний. Это особенно важно при работе с официальными документами, например, паспортами и штампами, где даже небольшая ошибка может повлиять на принятие решений в бизнесе или финансовой сфере