科学网—新电脑程序帮助古文本数码化

论文作者：Luis von Ahn 期刊：《科学》发布时间：2008-8-15 14:11:27

新电脑程序帮助古文本数码化

图片来源：Creative Commons（via Science）

据8月14日的《科学》（Science）杂志报道说，CAPTCHA 是一串必须通过阅读和重复输入来识别的扭曲的数字或字母，它被当作一种安全措施而用于环球网上。您以前为了进入一个安全的网站（如某个电子邮件提供机构、售票机构、社交网络或博客）可能曾经正确地解读过一个CAPTCHA。如今，研究人员改进了基于这一在线安全程序的基本运算法则以帮助解读来自消退文本的字词，而这些字词又是计算机化的光学字符识别（OCR）程序所无法识别的。

基本来说，为了保存人类的知识并使世人更容易获取资讯（以及为了赢利），有形的书籍及其它文本将被整体数码化。当来自文本扫描的某一特别的字被2 个不同的OCR 程序作出不同的解读时，该字将被标为“可疑的。”一种reCAPTCHA程序这时会将这一可疑的字与一个已知的“对照”字结合在一起，并将两者都呈现给网上的电脑用户。如果人类使用者将对照字进行正确解读的话，接着使用者对该可疑字的猜测将被标注为一种似乎可能的猜测。如果有三位使用人都将该可疑的字进行同样解读的话，这样该字将得到校验并成为一个对照字。用这种方法，reCAPTCHA 充分利用了人类在阅读扭曲文本时的卓越表现，并为人类知识的数码化作出了贡献。这一程序是由Luis von Ahn 及其同事开发的，在考古学上具有重大的意义。目前有超过4 万个网站使用这种程序。（来源：EurekAlert!中文版）

（《科学》（Science），DOI: 10.1126/science.1160379，Luis von Ahn，Manuel Blum）

更多阅读（英文）

《科学》发表论文摘要

| 打印 | 评论 | 论坛 | 博客 |

相关论文

一周论文排行

小字号

中字号

大字号