(Luis von Ahn: Massive-scale online collaboration)


어떻게 이 프로젝트가 시작되었는지 말씀드리겠습니다. 이 프로젝트는 다음과 같은 인식으로부터 출발했습니다. 

전 세계에 걸쳐 매일매일 약 대략 2억개의 CAPTCHA들이 입력됩니다. 

제가 처음 이러한 사실을 알게 되었을 때 저는 스스로가 제법 자랑스러웠죠. 

'내 연구의 영향력이 이 정도군!' 이렇게 생각했었죠. 

하지만 그리고는 바로 기분이 안 좋아졌습니다. 

이유는 이렇습니다. 매번 CAPTCHA를 입력할 때마다 10초의 시간을 사용한다고 하면, 

2억번의 CAPTCHA가 입력된다는 것은, 이 귀찮은 CAPTCHA입력 때문에

 전 인류적으로 매일 50만시간이 낭비하게 된다는 뜻이었기 때문입니다.



So let me tell you what this project started. So this project started from the following realization: It turns out that approximately 200 million CAPTCHAs are typed everyday by people around the world. When I first heard this, I was quite proud of myself. I thought, look at the impact that my research has had. But then I started feeling bad. See here's the thing, each time you type a CAPTCHA, essentially you waste 10 seconds of your time. And if you multiply that by 200 million, you get that humanity as a whole is wasting about 500,000 hours every day typing these annoying CAPTCHAs. So then I started feeling bad.



(출처 : http://www.ted.com/talks/luis_von_ahn_massive_scale_online_collaboration.html)









이런 것을 캡차라고 한다. 

이것을 사용하는 이유는 양식을 입력하는 주체가 컴퓨터 프로그램이 아니라 사람이라는 것을 확인하기 위해서









"기다리라고 해서(WAIT) 20분이나 기다렸는데 아무 일도 일어나지 않아요!!"








캡차를 발전시킨 것. 리캡차






카네기 멜론 대학에서 시작했었고, 그 후에는 신생회사가 되었는데, 그리고 나서 구글이 인수함






리캡차를 시작하게 된 계기






리캡차는 이렇게 두 개의 단어를 입력한다.








이런 곳에서 이미 리캡차를 사용하고 있음


리캡차는 기존에 광학문자인식(OCR)기술을 이용하여 

스캔한 책에서 문자를 추출해내던 것을 여러 사람이 나누어 하자는 의미이다. 



"그런데 웹페이지의 보안이 캡차에 의존하기 때문에 캡차를 그냥 버릴 수도 없지요 저는 그래서 캡차를 입력하는 시간을 인류를 위해 좋은 일을 하는데 쓸수 있을까 생각했죠. 자, 이런 생각을 해 보세요... 여러분이 10초 동안 캡차 문자열을 입력할 때 여러분의 뇌는 매우 어려운 일을 하고 있죠. 컴퓨터는 아직 그런 일을 못합니다. 어떻게 하면 여러분이 그 10초 동안 어떤 유용한 일을 할 수 있게 저희들이 도와드릴 수 있을까요? 다시 말하면, 아직까지 컴퓨터가 풀지 못하는 어떤 거창한 문제를 찾아 그것을 10초 단위의 작은 작업단위로 쪼개서 사람들이 캡차 질문에 답을 할때 마다 그 문제의 작은 부분을 해결하게 만드는 것이 가능할까요?그 질문에 대한 답은 "예" 이며 우리가 지금 하는 일이 바로 그겁니다.

여러분이 모르실지는 모르지만 요즘은 캡차 문자를 입력할 때 사람이 캡차 입력을 한다는 것을 증명할 뿐만이 아니라 저희들이 종이책을 디지털화하는 일을 실지로 도와줍니다. 자, 그럼 제가 좀 더 자세히 설명드리겠습니다. 책들을 디지털화하는 프로젝트는 많이 있습니다.구글, 인터넷 아카이브, 아마존 그리고 지금은 킨들도 종이책을 디지털화 하려고 노력하고 있습니다. 이런 작업은 주로 오래된 책으로 부터 시작됩니다. 그런것들 보셨죠? 책이라는 것 말이예요? (웃음) 처음에 하는 일은 책을 스캔하는 것이죠.

책을 스캔하는것은 책의 모든 페이지를 디지털 사진기로 찍는것과 비슷합니다. 그렇게 각 페이지의 이미지를 포착해서 그 책에 담긴 텍스트의 모든 이미지를 얻는 거죠. 다음 과정은 컴퓨터가 각 이미지에 있는 단어를 해독하는 것이지요. 우리는 텍스트의 이미지를 읽으며 무슨 글이 써있는지 판독해 주는 광학문자인식(OCR)이라는 기술을 이용합니다. 그런데 문제는 그 OCR 기술이 완벽하지 않습니다. 특히 잉크가 바래고, 페이지가 노랗게 변한 오래된 책은 OCR이 많은 단어를 인식하지 못합니다. 예를들어 50년이 넘은 책들은 컴퓨터가 대략 30%정도를 인식하지 못합니다. 그래서 우리가 지금 하고 있는 작업은 컴퓨터가 인식하지 못하는 모든 단어들을 모아서 여러분이 인터넷상에서 캡챠 문자를 입력할 때 사람들이 그런 문자를 읽게 합니다.

그래서 다음에 여러분이 입력하는 캡차 문자는 디지털화 하는 과정에서 컴퓨터가 인식하지 못했던 것이지요. 그런데 요즘엔 한단어 대신 두단어를 보여주는데 그중 하나는 컴퓨터가 디지털화하다가 판독하지 못했던 단어를 보여주는 것이지요. 그런데 컴퓨터는가 그 단어를 모르기 때문에 정답이 입력됐는지 모르죠. 그래서 컴퓨터는 자기가 답을 아는 다른 단어를 하나 더 화면에 보여줍니다. 그리고는 그냥 두 단어를 모두 입력하라고 하지요. 그래서 컴퓨터가 이미 알고 있는 단어에 대해 여러분이 정답을 입력하면, 여러분을 인간으로 인정하고 다른 단어도 옳게 입력했을거라는 자신을 어느정도 갖게 돼죠. 만약 이런 과정을 10명의 다른 사람들에게 반복하고, 10명 모두가 그 단어를 똑같이 읽으면 그 단어를 정확하게 디지털화 한 것으로 간주합니다.

캡차 시스템은 이렇게 작동합니다. 약 3, 4년 전에 저희들이 이 시스템을 소개한 이후 많은 웹사이트가 시간을 낭비하던 구형 캡차 시스템으로 부터 책을 디지털화하는데 도움을주는 신형 캡차 시스템으로 업그레이드 했지요. 예를들면, 티켓마스터도 업그레이드 했는데 그래서 거기서 표를 살때마다 여러분은 책을 디지털화하는데 도움을 주게됩니다. 페이스북에서는 친구를 추가하거나 누군가를 찜할때 마다 책을 디지털화하는데 도움을 주게 됩니다. 트위터와 약 35만개의 다른 사이트들도 신형 리캡차를 사용합니다. 사실 리캡차 서비스를 이용하는 사이트가 많아서 매일 디지털화되는 단어 수는 정말 엄청나게 많습니다. 일일 대략 1억개 정도가 되는데 이 숫자는 연간 250만권의 책들에 해당하는 숫자이죠. 이건 단순히 사람들이 인터넷상에서 리캡차 단어를 하나씩 입력해서 가능하게 된 것입니다."











많은 번역기들이 있지만 번역기를 돌리면 이렇게 엉터리 문장들이 나온다.





번역의 장애물.


(1)두 외국에어 모두 능통한 사람이 적다.

(2)번역을 할 동기가 없다.






외국어를 배우기 위해서 이렇게 많은 사람들이

이렇게 많은 돈을 쓰고 있다.






이러한 아이디어를 활용한 또 하나의 사업. 듀오링고.


외국어를 배우고 싶어하는 많은 사람들의 수요와, 번역을 필요로 하는 수요를 절묘하게 결합시킨 것.


자신의 외국어 수준에 따라서 번역을 해야 하는 문장을 제공받고,


제공받은 문장을 번역하면, 여러 사람의 번역 데이터가 쌓여서


결국에는 방대한 분량의 웹 페이지도 번역이 가능하다.











실제 컨텐츠로 공부할 수 있따는 장점이 있다.








이 정도로 정확하다.








영문 위키피디아를 스페인어로 번역하는데

백만명의 사람이 하면 80시간이면 가능하다.








교육에 대한 공정한 사업모델!





+ Recent posts