reCAPTCHA_利用CAPTCHA让电脑去向人类求助的系统

reCAPTCHA

利用CAPTCHA让电脑去向人类求助的系统

CMU设计了一个名叫reCAPTCHA的强大系统，让他们的电脑去向人类求助。具体做法是：将OCR软件无法识别的文字扫描图传给世界各大网站，用以替换原来的验证码图片；那些网站的用户在正确识别出这些文字之后，其答案便会被传回CMU。

新用途

反spam的CAPTCHA技术有了新的用途：reCAPTCHA

根据Science的介绍，reCAPTCHA是利用CAPTCHA的原理（CAPTCHA的中文全称是全自动区分计算机和人类的图灵测试），借助于人类大脑对难以识别的字符的辨别能力，进行对古旧书籍中难以被OCR识别的字符进行辨别的技术。也就是说，reCAPTCHA不仅可以反spam，而且同时还可以帮助进行古籍的数字化工作（可以称为人工OCR）。不知道他们的灵感是否来自于分布式计算的想法？据称正施用于 4 万多个网站，并已经帮助解决了来自扫描文本文件的约 4 亿 4 千万个字词。

使用方式

reCAPTCHA使用起来并不复杂，大多数独立blogger所用的wordpress，MT都有相应的插件支持。在注册一个用户名后，输入你的blog域名（只支持域名和子域名），就会的到一个Public Key，把他用在你所用的reCAPTCHA插件上。reCAPTCHA也支持多个站点。

识别过程

安装成功后，用户评论就有了CAPTCHA功能。每次CAPTCHA会显示两个单词让人来识别，其中一个是需要用户识别的难认词，另外一个是答案已知的真正的CAPTCHA 词。软件将能够正确识别CAPTCHA词的用户看作是人类，当CAPTCHA 词被正确识别出来后，程序会纪录用户对无法阅读的词的回答并将其添加到它的数据库中。这样就完成了一次人工的OCR识别。

为了改善软件的精确性， reCAPTCHA 会将最困难的词发送给多个用户并挑选其中有相同答案的作为正确的答案。据说准确率能够达到99%。

用户每使用一次这个程序，实际上就是在帮助数字重现1908年《纽约时报》上的某一页，或者其它古书中的一页，这对考古学具有重大的意义。