기계학습 잘 하는 법? 인간학습 잘하는 법과 같다

2021. 2. 27. 12:34리걸테크

저는 아무 것도 모르는 사람이지만, 언저리를 돌아다니며 보면서 느끼고 깨달은 걸 적어 봅니다.

 

하도 인공지능이 넘쳐나니 인공지능, 기계학습(머신러닝), 딥러닝 등을 이야기 하는 사람들이 많습니다.

 

이것도 모르는 사람이 있나 싶지만 의외로 마구잡이로 사용하는 사람들이 상당히 많습니다.

 

지지난해에 자문하다가 선수로 들어간 회사를 일학습병행기업으로 만들기 위해 신청을 했을 때 일입니다.

 

일학습병행기업 자문을 오신 분께서 인공지능을 설명하시면서 '머신러닝이란 게 있는데 이게 딥러닝이란 완전 다른 거거든요. 기존 인공지능과는 전혀 다른 기술로서... 알파고 아시죠? 그게 머신러닝으로 만든 건데... 아무튼 머신러닝은 완전 혁신적인 거고...' 등의 이야기를 아무렇지 않게 말씀하시는 걸 듣는 데 어찌나 참기가 어렵던지 나름 그거 듣는 게 고역이었습니다.

 

이미 구글만 뒤져봐도 인공지능의 역사가 오래되었고, 최근 신경망이론을 활용해 방대한 양의 데이터를 통해 기계가 학습을 통해 최적의 함수를 찾아내게 하는 방식이 기계학습이란 정도는 쉽게 찾을 수 있는데 말이죠.

 

인공지능 ⊃ 기계학습(머신러닝) 딥러닝 

 

아무 이야기나 하는 분들이 전문가가 되어 자문을 하고 다니고 계신 현실이 좀 암울하지만, 원래 이런 전환이 이뤄지는 시기에는 그런 사람들이 있기 마련입니다.

 

정작 중요한 것은 인공지능이든 기계학습이든 딥러닝이든 이게 왜 중요해졌느냐는 사실입니다.

 

방대한 자료 또는 데이터의 시대.

 

이는 데이터를 저장하는 비용이 과거에 비해 상상할 수 없을 정도로 집약되고 디지털화 되었기 때문입니다.

 

과거 데이터를 저장하던 방식을 생각해보면 인공지능과 빅데이터가 얼마나 하드웨어 기술 발달에 혜택을 입고 있는 지 뚜렷하지요.

참고자료: 데이터 저장장치 타임라인(The Evolution of Data Storage: Data Storage Device Timline)

 

방대한 데이터를 값싸게 저장하고 빠르게 처리할 수 있게 되면서부터 '인공지능'과 '빅데이터'가 힘을 쓰게 되었다고 생각합다.

 

데이터가 있다고 해도 그 데이터의 질이 좋지 못하면 제 아무리 계산기능이 뛰어나도 학습의 결과는 좋지 못합니다.

 

기계학습이 잘 되려면 양질의 데이터가 필요하다

사람이든 기계든 학습 결과가 좋으려면 양질의 데이터가 필요합니다.

 

주변에 공부에 시간은 매우 많이 하는 데 성적이 좋지 않은 친구들이 있습니다.

 

이런 부류의 학습법을 보면 이른바 '좋다'는 책을 사모으는 데 집중하고 정작 책 내용은 여러번 반복해서 보지 않습니다. 좋다는 걸 찾는 데 시간을 낭비하지요. 자원을 낭비하는 나쁜 습관은 잊고 자신이 투입한 의미없는 자원의 양만 스스로 높이 평가합니다.

 

일을 할 때에도 자료만 모으고 나중에 필요할 거란 자위를 하면서 정작 필요한 자료를 깊이있게 검토하거나 일로 연결하지 않는 분들이 허다합니다. 

 

그런데 성적이 뛰어난 친구들은 기본서(교과서)를 위주로 해서 반복해서 보고, 이따금 다른 문제집을 풀면서 부족함을 메웠다고들 하죠. 딱 필요한 자료를 잘 수집해서 해당 자료를 기초로 반복해서 활용합니다.

 

기계학습에서도 필요한 자료가 아니라 도움이 될 것 같다고 마구 데이터를 집어 넣으면 학습을 할 때마다(Epich) 찾으려고 하는 함수 또는 모델에 기여하지 못하는 데이터를 버리는 과정을 해야 하는데(loss) 잘 버리지 못하면 모델이 남아 있는 데이터들을 만족하기 위해 깔끔한 식을 찾아내지 못합니다.

 

이런 경우를 과(대)적합 또는 오버피팅(Overfitting)이라고 합니다. 오버피팅을 피하려면 빈도가 낮은 데이터는 적당히 버려야 합니다. 그렇게 버려진 데이터는 존재하지만 존재하지 않는 것으로 여겨지는 블랙스완이란 개념과 연결이 됩니다.

 

그런데 이 개념을 잘 이해 못한 분들이 '오버피팅'이란 말을 마구 남발하는 게 아닌가 싶습니다.

 

학습은 잔뜩 했는데도 불구하고 결과가 성적에 기여하는 형태가 안나오고 정리도 안되죠.

 

리걸테크: 양질의 데이터와 학습방법의 조화

 

법을 공부할 때도 비슷한 경우가 있습니다.

 

좋다는 책을 잔뜩 사 모으는 분들을 여럿 봤는데, 그 분들은 하나같이 민법에서 헤맵니다. 우리 민법은 판덱텐 시스템을 띠고 있어서 총론과 각론의 변주가 러시아의 마트료시카 인형처럼 계속 이어지기 때문입니다.

 

제가 관심 두고 있는 리걸테크 영역을 인공지능이 대체하는 것에 대해서도 이 양질의 데이터가 매우 중요한데, 기계학습에 대해 오해를 하고 있는 분들의 특징은 '판례'만 개방이 되면 아주 양질의 인공지능이 등장할 거라는 생각을 합니다.

 

각 영역에서 인공지능이 힘을 발휘하려면 정말 양질의 데이터가 필요합니다.

 

현재 판례가 생성되는 과정을 잘 이해해보면 판례로 인공지능이 우수한 성능을 발휘할거란 건 인공지능도 법도 모르고 마구 뱉는 이야기일 수밖에 없습니다.

 

판례가 쏟아지면 뛰어난 인공지능이 나올까에 대해서는 어느 분의 비유처럼 엄청나게 다양한 볼트와 너트와 장비를 넣고 흔들면 비행기가 조립된다고 믿는 것과 비슷합니다.

 

물론 그럼에도 판례는 가급적 많이 개방될 필요가 있습니다. 인공지능이 아니라 사회의 투명성과 분쟁의 예방을 위해서도 충분히 필요합니다.

 

다음에는 판례 생성의 원리와 기계학습 데이터로서 판례의 위험성에 대한 이야기를 좀 풀어볼까 합니다.

 

대표이미지 출처: Image by Markus Winkler from Pixabay