문득 카페에서 t-sne 사용법을 위해 PCA에 대해 공부를 다시 하다가 

학습을 전달하는 교육자나 학습을 받아들이는 학생이나 

모두 첫 시작은 "이것을 왜 배우는가"에 대한 고민이어야 한다는 점이 다시 한번 와닿았다. 

 

학창시절 방학특강 등으로 고등수학을 선행하다보면 "그래서 이게 뭔소리..?"라는 생각이 자주 들었다.

지금 당장 내용을 이해할만큼 머리가 성숙한 것도 아니고,

어떻게든 이해하도록 반복학습을 할 단원도 아니니 단순히 머릿속을 스쳐지나가는 과정이 되어버렸다.

 

그래서 나는 중학생을 과외할 때도 항상 이 과정의 단원은 왜 이렇게 구성되어 있는지, 

이걸 지금 배워서 나중에 뭐에 써먹는지를 설명해주고 시작한다 

(예를 들어, 극한을 배울 때는 나중에 미분을 할 때 이렇게 저렇게 사용한다,

삼각함수를 배울 때는 이건 각도를 실수로 바꾸는거다 or 길이나 넓이를 구할 수 있다 등등)

 

학부시절에 사실 공부에 너무 집중을 못했는데 

공학수학을 배울때 당최 이걸 왜 배우는지.. 를 이해를 못해서 마음이 안붙었던 것 같다 (라는 좋은 핑계이지만..)

PCA도 학부 / 대학원 거치면서 10번도 넘게 배웠을텐데 

연구에 필요해서 찾아보니 드디어 기억속에 어떻게 구하는 건지 제대로 자리잡아 장기기억으로 넘어간 것 같다

 

나중에 교육을 다시 업으로 하는 날이 온다면 꼭 기억하고 싶어서 짧게 기록해둔다

무엇이던 그걸 왜 하는지 목표설정과 이해가 우선이다 !

 

다른 도메인에 맛집 기록이랑 일기 쓴다고 바빠져서 + 귀찮음 / github블로그로 옮길까 고민하며

티스토리 블로그는 버려둔지 오래..

 

이런 상황에서 공부 기록용 티스토리 블로그를 찾지 않을 수가 없는 대 사건이 일어난다

이름하여 chatGPT 열풍,,

 

그 시작은 연구실에서 어느날 얼리어답터인 어떤 선배가 chatGPT라는게 나왔고 

그걸 검색엔진으로 만들수 있는 확장이 나와서 써봤다 ~~ 하는 얘기를 들은것 !

첨 듣고는 그렇구나 ~ 하고 넘겼는데 어느 주말 개인 공부하다 찾아보니,, 

이거 진짜 대박이구나,, 싶어서 기록으로 남겨야 겠다는 생각이 들었다  

 

chatGPT가 등장한지도 벌써 근 3달이 다되간다. (22.11.30 개시)

https://openai.com/blog/chatgpt/

 

ChatGPT: Optimizing Language Models for Dialogue

We’ve trained a model called ChatGPT which interacts in a conversational way. The dialogue format makes it possible for ChatGPT to answer followup questions, admit its mistakes, challenge incorrect premises, and reject inappropriate requests. ChatGPT is

openai.com

 

GPT야 워낙에 대단하다는 걸 알아왔지만 챗GPT는 내가 느끼기엔 새로운 인터넷의 등장이 아닐까 싶다

예전에 어느 전문가가 "AI는 4차 산업혁명 시대의 새로운 전기다"라는 말을 한걸 들었는데

이제는 chatGPT가 4차 산업혁며 시대의 새로운 전기다 라고 해야하지 않을까? 

 

주변 직장인들 말을 들어보면 갑자기 교육에, 인사에, 마케팅에, 기획에 딥러닝을 접목해보라고 했다는 오더들이 내려왔다 하고,

주식만 봐도 chatGPT 관련주 열풍에 (엔비디아, 로블록스, 메타, 국내 메타버스 주들 등등)

뉴스만 봐도 대통령이 chatGPT에 관한 특별 지시들과 신년인사를 chatGPT로 써보았다는 뉴스가 있다

 

https://mobile.newsis.com/view.html?ar_id=NISX20230127_0002171728#_enliple 

 

尹 "챗GPT, 오랜 조력자같은 문장"…참모들은 미래기술 '열공' 중

[서울=뉴시스] 양소리 기자 = "윤석열 대통령이 최근 신생 챗봇 챗GPT(ChatGPT)를 이용한 뒤 상당히 깊은 관심을 보이고 있다

mobile.newsis.com

 


개인적으로 챗GPT에 느꼈던 점을 이래저래 써보면 

우리나라에서 랭귀지 딥러닝 모델이 이렇게나 주목받았다는 점이 신기하다는 것이다.

 

우리나라 및 기타 아시아 국가들은 비전쪽 연구를 찍어내고 

미국을 포함한 북미, 영미권 국가들은 NLP, speech등의 연구를 주로 하는 느낌이고,

실제로 서울대에도 비전딥러닝을 하는 연구실은 많지만 상대적으로 음성딥러닝을 하는 곳은 적다.

 

내가 생각하는 이유는 물론 네이버, LG 등이 한국어 초거대 언어 모델을 만들려고 노력을 많이 하고 있으나,

"한국어"라는 단일언어로는 영미권 국가들 처럼 대규모로 데이터셋을 몹거나 자본을 투자할 수 없으니 

영어를 바탕으로 하는 나라에서 당연히 NLP 연구가 더욱 조직적으로, 주도적으로 일어나고 있다는 것이다.

(물론 어깨너머로 보기엔 LG, 네이버 모두 크나큰 투자를 하고 있지만)

 

  우선 그래서 우리나라에서는 수익화를 위한 것이 아닌, 학문을 위한 NLP 연구는 잘 주목 받지 못하겠지? 라는 생각을 갖고 있었는데

(이유가 뭐가됐던) NLP 모델이 이렇게 큰 파장을 불어 왔으니, 우리나라에서도 이제 Language 모델이 더더욱 발전하려나? 하는 기대감이 생기게 된 것 같다. 

 

chatGPT를 이용하면 이제 왠만한 메일도 자기손으로 쓰는 사람이 없을 것이고, 

현재 우려하는 바대로 대학 과제 등등에서 과연 chatGPT를 가려낼 수 있을까하는 생각이 든다. 

 


다만 여러가지 의미로 chatGPT는 "정말로" 인터넷이라고 생각하는 것이 

내가 생각하는 chatGPT의 단점은 크게 두가지이다.

"신뢰성"과 "공정성".

 

사실 공정성은 단순히 학문적인 궁금증, 더 나아가서 내가 AI에 대해 근본적으로 갖고 있는 궁금증 중에 하나의 이야기이니 

짧게 아래 다른 분의 게시글로 대체하도록 하고 

 

https://m.blog.naver.com/PostView.naver?blogId=darksun1998&logNo=223010626046&proxyReferer= 

 

ChatGPT 탈옥 이슈

그 동안 공돌이들이 미래를 더 생산적이고 희망차게 만들기 위하여, 시간과 노력과 돈을 갈아넣어 AI를 ...

blog.naver.com

 

한마디로 정리하자면 large dataset을 사용하는 것은 좋으나 이것이 "어디까지 abusing 방지가 되어야 하는가"이다.

기존의 국내의 이루다, MS의 테이 등이 수많은 어택으로 abusing이나 차별발언을 막지 못하여 서비스 종료한 사건들이 있었다. 

(이제보니 MS가 테이의 아픔으로 abusing을 굉장하게 처리해서 chatGPT를 내놓았나 싶다)

 

이러한 단순 어택의 문제는 AI의 문제라기 보단 사용자들의 문제이니 패스하고, 

내가 궁금한건 결국 이러한 초거대 AI 모델을 만들기 위해 초거대 dataset을 사용해야 할 것이고,

초거대 dataset을 사용하는 이상 정제되지 않은 데이터를 사용하는 것이 지금으로서는 불가피할 것인데 

과연 정제되지 않은 dataset의 bias를 딥러닝은 얼마만큼 허용해야 할까?

 

사람들과 사회가 고정관념을 갖고 있는 것은 사실인데 그러한 편견과 고정관념을 AI역시 배워야할까? 

배우지 않도록 하는 것이 오히려 더 문제 아닌가? 

둘 사이의 절충안이 있어야한다면 어떻게 파라미터 튜닝을 해야할까? 하는 것들이 궁금증으로 남게 된다. 

 

 


공정성은 나 하나의 궁금증에 가깝다면 

신뢰성은 chatGPT가 가장먼저 넘어야할 산에 가깝다. 

 

실제로 내 주변 직장인들 중 사무업무를 보는 사람들은 

위에선 GPT로 뭔가 통계 자료를 내거나 사무보조 하는 방법에 대해 논의 하고 있는데

사실 GPT가 대답하는 통계 자료는 레퍼런스가 없으니 쓸수가 없다 라는 고충을 토로한다 .

 

챗GPT로 받은 대답을 바로 업무에 사용하는 것은 마치 나무위키를 레퍼런스로 과제를 하는 것과 같지 않을까 생각해본다

어디서 보기 힘든 다양하고 세세한 정보를 얻을 수 있고 높은 확률로 크로스체크가 되어 맞는 정보이겠지만,

아무도 그것을 레퍼런스로 보고서를 쓰지 않는다.  위험부담이 너무 크고, 공적인 신뢰도가 너무 떨어지기 때문이다. 

 

이러한 점을 생각해보면 결국 chatGPT던 AI던 현재 상상할 수 있는 수준에서는 

인간을 대체한다기보단 인간의 보조 역할로 거듭나는게 맞나? 하는 결론이 나기도 한다. 

(사실 많은 인간들이 이것을 바라는 것 같기도 하고)

 

 

단순 의견을 적는 글이라 정돈 되지 않은 글이지만 

10년동안의 가장 혁신적인 기술로 추앙되는 chatGPT 열풍이 식기 전에 빠르게 

지금 드는 생각을 적어보고 싶었다 !

 

오늘의 일기 끝. 

 

www.youtube.com/watch?v=oMAFCG-pGg4

SNU 봄학기 AI 콜로퀴움 강의

* SNU 봄학기 AI 콜로퀴움 강의인 서울대학교 법학전문대학원 고학수 교수님의 강의 - 인공지능 시대, 인공지능 윤리를 듣고 요약 및 짧은 소감을 적은 글 입니다. 

 

 아마존의 검색 알고리즘, 유투브, 넷플릭스 등 다양한 추천 알고리즘에서 편향이라는 주제가 화두가 되면서 인공지능 윤리에 대한 관심이 커지고 있다. 실제로 국제 인공지능 학회에서도 ‘Ethics’ 키워드가 등장하는 빈도가 2017년을 기준으로 폭발적으로 증가하고 있다. 국내의 상황 역시, 올 초 AI 채팅봇인 이루다에 관한 이슈에 일어나면서 인공지능 윤리에 대한 관심이 높아지고 있다. 인공지능 윤리란, 단순 일상용어로서의 윤리를 넘어서서 법학적인 규제를 포함하며 공학적인 측면 역시 다뤄야 하기 때문에 그 논의 진행되기 쉽지 않다. 하여 아직까지는 인공지능의 윤리에 대한 논의가 자연어 처리 분야에서만 활성화되고 있는 상황이다. 그 조차도 국제 사회에서의 자연어처리에 관한 이슈는 영어를 사용하는 미국사회를 기준으로 논의되고 있기에, 국제적으로도, 국내에서도 논의가 더욱 활성화되어야 할 필요성이 대두된다.

 

  강연에서 다룬 인공지능을 활용한 의사결정 사례와 이슈의 자세한 현황에 대해 알아보자면, 신용평가를 대표적인 예시로 들 수 있다. 현대사회는 다양한 데이터를 활용하여 전통적인 신용평가와는 사뭇 다른 측면의 신용 점수를 만들어 사용한다. 이는 집을 구매한 이력, 직장이력등과 같이 일반적인 정보부터 웹 브라우징 기록, SNS 사용기록 등 신용평가와는 다소 거리가 멀어보이는 일상적인 정보까지 포함하는 경우가 있다. 하지만 이러한 메타 데이터의 활용이 같은 경제활동을 하는 부부의 신용카드 한도가 20배 차이나게 배정하는 사례를 만들기도 한다. 이에 대해 카드사는 성별은 카드 한도 제한 등의 신용평가 데이터로 사용되지 않는다고 변론하였으나, 성차별 논란으로 꽤나 이슈가 되었던 사례였다.

 

  이러한 이슈들에 대해 우리는 편향성이 무엇인가를 신중히 고민해야 한다. 현대사회는 어느 분야에서나 편향성을 지니고 있고, 이를 데이터의 산물인 인공지능이 고스란히 흡수하는 것은 막을 수 없다. 다만, 편향성이라는 것은 결국 차별이 될 수 있다는 점을 늘 주시해야 한다. 무턱대고 편향성을 줄이기 위해 데이터를 가공하다가는 데이터 자체의 신뢰도를 떨어트리는 문제를 직면하게 되기 때문에, 이는 생각보다도 복잡한 문제이다. 어떤 편향성을 문제 삼을지, 어떠한 기준으로 문제 삼을지 역시 여러 가치관의 충돌을 야기하는 문제가 된다. 따라서 우리는 편향에 대해 주의 깊게 주시하며 여러 가치관과 윤리성에 부합하는 인공지능을 만들어 가기 위해 각고의 노력을 기울여야 한다.

+ Recent posts