로봇프로세스자동화와 광학문자인식

2021. 1. 16. 11:33디지털전환

광학문자인식(OCR, Optical Character Recognition)

로봇형프로세스자동화(RPA, Robotic Process Automation)는 현업의 통찰이 매우 중요하다.

RPA 소개를 위해 관련부서와 미팅을 하게 되면 어김없이 나오는 요소가 바로 '광학문자인식'이다.

OCR, 아~ OCR!

흔히들 '대사(對査)'라고들 하는 '대조 확인 작업'을 경리 등을 담당하는 분들의 요구가 특히 OCR을 필수로 요청을 한다.

그리고 언제나 OCR의 정확도를 묻고, 정확도에 관한 무의미한 논의로 시간을 낭비한다.

 

경리에서 OCR에 관한 정확도 논쟁은 무의미하다.

 

거래행위가 일어나는 분야의 OCR은 99.99% 정확하다고 해도 매우 부족하다.

반복적인 거래가 일상인 분야에서 사람을 대체해 OCR을 탑재한 RPA가 처리할 대조 확인 작업이 1만개이면 1개 정도의 오류가 있다는 소리이다. 그 오류를 어디서 찾을 것인가? 만약 99.999%라고 하면 10만개에서 1번의 오류가 있을 수 있다는 소리인데, 10만개 가운데 어느 글자에서 오류가 발생했는 지를 어떻게 찾을 수 있겠는가?

 

인공지능을 추가하면 해결이 될까?

어떤 이들은 정확도를 높이고, 처리과정에서 인공지능이 들어가면 '대조 확인 작업'을 비약적으로 줄일 수 있다고 한다.

 

좋은 생각이다.

 

그런데, 비약적으로 줄이는 기준에 대한 설정이 또 굉장히 많은 검증이 필요하다는 사실이다.

아시는 분들은 잘 알지만 '기계학습(ML, Machine Leanring)'은 수많은 학습을 통해 예측을 하거나 분류를 하는 등의 작업을 하는데, 손실에 대한 측정이 매우 중요하다. 그 까닭은 '실제 값'과 '모델(학습을 통해 발견해서 찾아낸 함수)의 결과 값'의 차이에 대한 적당한 수준을 발견하고, 그를 통해 결과도 예측, 분류 그밖의 다양한 것들을 하게 되는데 그 모두가 통계적인 작업이다. 

텐서플로우를 활용한 간단한 기계학습 예와 처리결과 - 'loss'는 학습해서 나온 결과값과 실제 값을 비교할 때 어느 정도 차이가 있을지를 나타낸다.

안타깝지만 과적합(Over fitting)을 피하려면 단순한 논리로는 블랙스완을 무시해야 한다. 

 

이 문제에 대한 고민은 학계에서도 고려하는 듯하고, 논문도 나와 있는 듯 하다.

남들이 오래 고민한 내용을 내가 단숨에 이해하지는 못해서 논문 공유로 마치자.

 

그렇다면 OCR을 어디에 써야 할까?

정확성이 아니라 추출이라는 측명에서 활용할 사례는 얼마든지 있다.

디지털화 되지 않은 수많은 문서들을 저장고에 남기고, 약간의 오류와 오타는 수용할 수 있는 분야를 찾아보면 의외로 많다.

국제적으로도 당연히 높은 필요가 있다.

 

사실 한자로 기록된 수많은 서적도 이런 문제를 안고 있다.

 

기본적으로 중국의 고전들은 암송을 통해 전달되었고, 발음과 성조가 조금만 잘못 기억되어도 기록된 글의 의미가 전혀 달라진다. 그래서 중국 고전은 판본에 대한 연구가 매우 발달한다.

 

그런 오류마저도 인류의 역사라고 생각한다면, 문서저장고에 저장하는 영역에서 AI와 OCR은 엄청난 효율을 나타낼 수 있다.

 

일정 기간이 지나면 물론 OCR은 그 위치가 매우 줄 게 될 수 밖에 없을 것이다.

 

왜냐면 기본적으로 데이터가 디지털로 생성되기에 OCR이 필요한 영역이 줄게 될 것이기 때무니다.

 

디지털전환이 이끌 변화

데이터를 아날로그에서 디지털로 전환시키는 영역의 매력은 점차 줄 수 밖에 없다.

 

디지털전환은 데이터가 무지막지하게 늘어난 것들을 어떻게 처리할 것인지?

기존 업무를 어떻게 전환할 것인지?

데이터 기반으로 서비스를 하려면 어떻게 할 것인지?

기존 서비스와 새로운 서비스에 어떻게 활용을 할 것인지?

 

생각하고 질문하는 사람이 남게 되는 세상이 이미 왔다.

 

답은 AI가 잘하지만, 질문은 사람이 하는 거다.

 

질문하는 힘이 창의력이다.

 

그걸 어떻게 끌어낼 것인지에 대한 C레벨에 있는 이들의 고민이 드러나야 조직이 디지털에 전환된 조직이 될테다.

 

HR이 근본적으로 중요한 까닭이다.

 

<<대표이미지는 Pixabay로부터 입수된 Holger Detje님의 이미지 입니다.>>