Инновационные стратегии: Оцифровываем книги креативно!

reCAPTCHA - это еще один инновационный Интернет проект от School of Computer Science и Carnegie Mellon University из США о котором я хочу рассказать сегодня. Система reCAPTCHA показывает изображение с "размытым" словами которые пользователь должен распознать и внести вместе со своими данными авторизации (такими как "имя пользователя" и "пароль") на Интернет-сайте. Таким образом, подписавшиеся на данный бесплатный сервис сайты получают систему защиты от интернет-ботов (для защиты от спама).

Однако, данная система привлекла мое внимание совсем не по этому. Дело в том, что она с пользой использует затраченные на ввод изображения время человека, а именно - с целью распознавания и оцифровки книг.

Каждый день системой автоматически распознается более 200 миллионов слов. В настоящий момент сервис используется на более чем 100 тысячах онлайн-ресурсов включая широко популярные сайты, такие как Facebook и Twitter.

Технология, позволяющая превращать отсканированные куски с текстом в нормальные цифровые тексты, очень понравилась так же и Google которая купила данный старт-ап и планирует использовать его на благо собственного проекта по оцифроке книг Google Books и поиска по новостям Google News Archive Search.

Система работает следующим образом: в отличие от традиционных систем распознавания пользователя, путём введения определённого набора символов и цифр, система ReCAPTCHA предлагает пользователю ввести два слова. Одно из этих слов уже распознано и известно системе, другое слово системе неизвестно и не может быть распознано программой распознавания текста. Неизвестное системе слово, введённое пользователем, используется в качестве возможного варианта распознания.

Эффективность подобного метода достаточно высока, поскольку системе предоставляется множество распознанных вариантов. А конечное распознание слова определяется путём вычисления наиболее часто используемого слова для ввода.

Оцифровываем книги креативно!

0 коммент.:

Отправить комментарий

Теги

Отрасли

Архив