빅데이터 드립 [통계, 빅데이터와 인공지능은 왜 알아야 하는 걸까?]

728x90

SMALL

빅데이터 드립

1. 개요

2017년 겨울부터 디시인사이드 등의 여러 커뮤니티 사이트에서 쓰이고 있는 낚시용 사진이다. 흥미를 끄는 제목을 올린 뒤에 본문에서 저런 어그로 문구와 인공지능 휴머노이드형 로봇 이미지를 게시하고 사람들을 속이는 용도이다.

2. 유래

빅 데이터와 기계학습을 비롯한 AI 기술이 급부상하고 이를 응용하는 시스템이 대거 개발되면서 이런 유행어가 탄생하게 되었다.

사실 이런 제목 낚시 패턴 자체는 람쥐, 탈모빔, 이글부터 봐라, 나ㅡ비, 엑소의 시우민은 아무것도 몰라요, 너굴맨, 가면라이더 드립 등 디시에서 늘 있던 것이다. 2017년 초에 유행한 본드 드립 따라서 새롭게 탄생했다고 하기보다는 기존에 존재하던 것에서 스킨만 갈아 끼웠다고 보면 된다.

3. 원본

아래의 그림이다.(원본은 해당 사이트에서 삭제되었다.)

Blutgruppe라는 작가의 작품으로, 이 작가는 근미래를 배경으로 한 SF 콘셉트의 이미지를 주로 만들어 냈는데, 이렇게 만들어진 스톡 이미지들은 AI, 로봇 등 과학 발전과 관련된 기사에 주로 판매되어 쓰였다. 작품에 주로 나오는 로봇은 왠지 아이, 로봇의 NS-5를 꽤 닮았다.

빅데이터 드립이 유명해지자 같은 작가가 만들어낸 다른 짤 역시 발굴되어서 소잿거리로 쓰이기 시작했다. 주로 이 짤은 인공지능 로봇이 인간을 가르치거나 강압적으로 무언가를 요구할 때 쓰인다. 제목낚시글을 적어놓고 본문엔 "이렇게 적으십시오 Human" 글을 적어두는 식.

4. 패러디

인공지능 으로써는 이해할 수 없을 듯한 비상식적인 행동이나 아무도 안 들어갈 곳, 정상인이라면 도저히 보고 싶지 않을 만한 내용의 제목을 달아두고 본문에는 위 짤처럼 로봇을 검게 칠해 마치 흑화 된 것처럼 만들어 놓거나 경찰복을 입혀놓고 "미치셨습니까, 휴먼?"이라며 질책하거나 "인간은 이해할 수가 없어"라며 한심하게 바라보는 베리에이션도 있다. 하지만 그렇게 욕을 해놓고서 짤방들을 보여주고 "이제 만족하십니까?"나 "아주 잘했습니다 휴먼" 같은 말을 하는 경우도 있다. 혹은 이렇게 낚시성 어그로를 시전 한 로봇을 짤툰의 깡! 밈과 엮어서 패버리는 역관광 짤도 있다.

제목낚시용으로만 쓰이는 빅데이터 드립과는 다르게 '미쳤습니까 휴먼?'은 단순히 상대를 욕할 때도 쓸 수 있어 범용성이 넓으면서도 인간 자체를 한심하게 여긴다는 것으로 뜻이 확장되어 현재는 이쪽이 더 많이 쓰이며, 인터넷상의 상대를 한심하게 본다는 로봇이라는 점에서 울트론과 엮이기도 한다.

엄마도 휴먼이야 휴먼!
허니셀렉트로도 패러디되었다.
2018년 인텔 CPU 보안 버그 유출을 풍자하는 목적으로도 패러디되었다.
타짜로도 패러디되었다.
히어로 갤러리에서 마블 시네마틱 유니버스에 등장한 비전으로도 패러디되었으며 이 경우 MCU에 등장하는 캐릭터로 제목 낚시를 한다. 부기영화에서도 이 짤을 비전으로 패러디했다. 그리고 이 패러디들 중에서 야짤 제목 낚시로 비전 얼굴을 보여주다가 타노스가 등장해 비전 마빡의 마인드 스톤을 쥐어뜯고 정상적으로 야짤을 보여주며 씨익 웃는 2중낚시 베리에이션도 등장했다. 후방주의
디시인사이드 듀랑고 갤러리에서도 야생의 땅: 듀랑고의 긴급점검 사태를 풍자하기 위해 패러디 되었다.
굽시니스트의 시사인 만화에서도 패러디되었다.
마비노기에서도 같은 짤로 "미쳤습니까, 마비노기?"라는 대사를 추가하면서 패러디했다.
2018 제1차 남북정상회담의 판문점 선언과 연관 지어서 합성하기도 했다.
제7회 전국동시지방선거 경상남도지사 바른미래당 후보인 김유근 후보도 써먹었다.
소녀전선의 전술인형과 전술지휘관으로도 패러디되었다.
소울워커의 니어 소울워커 라반으로도 패러디되었다.
크리스마스 시즌이 되자, 원본 이미지에 산타 모자가 추가된 버전의 짤방이 사용되었다.
이세돌의 사진을 올려놓고 로봇을 낚으려고 하는 역낚시도 나왔다.
아예 이미지를 거꾸로 붙이고 제목과 내용을 뒤바꾼 것 또한 존재한다.
웹툰 열대어 73화에도 패러디했다.
언덕 위의 제임스 139화에도 패러디되었다. 여기서는 ~라고 적어라 패러디도 추가되었다.
라스트오리진으로도 패러디되었다.
노곤하개 시즌2 95화에서도 "미쳤습니까 휴먼?"으로 패러디되었다.
트위터에는 이런 패러디도 있다.
과거 너굴맨 낚시에서도 너굴맨을 처리하고 원래 보여주려고 했던 글을 보여주는 파생 버전이 나왔는데, 이 낚시에서도 이런 파생 버전이 나오기 시작했다. 아이, 로봇의 델 스푸너(윌 스미스)가 총으로 로봇을 쏘는 부분을 올리며 로봇을 박살내고 원 글을 보여주는 것이 가장 유명하다.
페이스앱을 이용해 로봇 사진을 웃는 얼굴로 만든 베리에이션도 있다. ## 이런 환하게 웃는 사진은 깔끔하게 움직이는 기계 움짤이나 로봇을 이용한 야짤을 올려놓고 군침을 흘리는 실없는 모습에 사용되어 독자로 하여금 웃음을 자아낸다.
어투가 묘하게 비슷한 앨런 다비리의 번역기 드립과 같이 쓰이기도 한다."Human, 불만 있어요? 당신의 XX, oo로 교체되었다" 같은 식.
장삐쭈도 이 짤을 패러디한 작품을 게시했다.
브라운 더스트의 광고도 이 짤을 패러디 했다. 로봇의 머리를 부수는 짤도 패러디된건 덤.
다른 손으로 법규를 시전하는 패러디짤도 나왔다.
토탈 워 마이너 갤러리에서 조조의 만행을 풍자하기 위해 조조의 외형을 합성한 모습으로 패러디했다.
제21대 국회의원 선거 시기 더불어민주당 박광온 의원이 패러디했다.
겜덕툰 78화에도 등장했다.
카운터사이드의 등장 캐릭터인 호라이즌은 소녀 형상의 기계라는 배경설정부터 말투까지 이 드립의 패러디. 게다가 기본적으로 인간을 싫어한다는 성격까지 깨알같다.
짤툰에도 흑화짤과 함께 등장했다.
웹툰 취사병 전설이 되다 191화에서 강성재가 시전한다. 204화에서 다시 보여준다("그럼 이런 건 어떻습니까?")

5. 여담

간혹 제목 이름을 잘못 알고 있는 일부 네티즌들은 "여러분의 관심사와 흥미를 끌어내기 위해 빅 데이터로 분석하여 가장 높은 조회수를 이끌어낼 만한 제목을 제작했습니다"라는 제목을 만들어내기도 한다. ## 그런데 이 제목도 은근히 말이 된다.
이 문구를 번역기로 번역하면 '관심사'와 '흥미'를 같은 문구로 인식하여 일본어는 '興味と興味'로, 중국어는 '興味和興味'라는 단어로 번역된다. 그러므로 '흥미'를 뺀 '관심사를 데이터로 분석하여' 한 단어만 쓰는 것이 맞는다.
네이버 메인의 테크 분야에 게시된 인공지능과 부동산 중개업체와 관련된 글의 썸네일과 첫 번째 사진이 이 짤로 선정되어 덧글에서도 화제가 되고 있다.
의외로 디시인사이드나 웃긴대학 외에도 수능 커뮤인 오르비에서도 애용되는 중이다. 이용자 특성상은 관심 끌기가 쉽다는 이유 때문인 듯하다.
이 드립이 유행하기 전에도 저 그림은 알파고를 나타내는 사진으로 많이 쓰였다.
낚시가 아니라 진짜로 관심사와 흥미를 빅데이터로 분석하여 가장 높은 조회수를 이끌어낼 만한 컨텐츠를 적절히 제공했다면, 알고리즘(밈으로서는 유튜브 알고리즘)으로 넘어간다.
2023년부터 ChatGPT의 등장으로 ChatGPT에게 다른 사람들의 관심사와 흥미를 빅데이터로 분석하여 가장 높은 조회수를 이끌어낼 만한 제목을 받아내고 이를 이용해 거한 어그로를 끌어 높은 조회수와 추천을 먹고 인기글을 차지하는 경우가 생겨나면서 정말 나중에 일어날 현실을 예언한 밈이었다는 반응이 늘어나고 있다. 실제로 "~커뮤니티에서 관심사와 흥미를 빅데이터로 분석하여 가장 높은 조회수를 이끌어낼 만한 제목을 도출해봐"라고 질문을 한다면 정말로 예시를 제시해주고 상황을 더 자세하게 제시할수록 더 근접한 예시를 제시해준다.

통계, 빅데이터와 인공지능은 왜 알아야 하는 걸까?

감으로만 투자하신다고요? 미쳤습니까 휴먼?

아직 초안이에요 :) 오늘은 시간이 없어 핵심만 간단히 써놓았는데 추후에 더 쉬운 설명으로 바꿔 놓고 예시, 사진들을 첨부할게요. '주린이를 위한' 카테고리니까 혹시 읽어보실 분들은 이렇게 생각할 수도 있구나 감만 잡으시고 용어나 이해가 안 되는 부분이 있다면 댓글로 질문해 주세요. 시간이 날 때마다 답변해 드리도록 할게요.

intrinsic value, reverting to mean. (if, mean= intrinsic value). drift term의 factor determination and coefficient.

even though stock price will converge to the intrinsic value(=mean) in the long term, it can be volatile in a short term period due to many variables such as fundamental change, surprising event occur.

By conducting (multiple) regression, we can detect how much a factor affecting the dependent variable, or the effect of multiple variables as a whole. Indeed there are some limitations of statistical approach.

추세와 통계적 유의성이 항상 경제적 유의성을 가지는 것은 아니기 때문입니다.

리스크 관리에 있어서도 확률적 접근이 가능해짐. 시뮬레이션은 특정 리스크가 회사에 끼칠 수 있는 피해의 정도를 확률화 시켜 보여줄 수 있기 때문입니다.

표본을 통해서 모수를 추정할 수 있기 때문에, 위험을 계량화 할 수 있게 되고 그에 따라서 대응할 수 있는 방안들이 구체화될 수 있습니다. 예를 들어서 5% 확률로 금리 인상이 회사에 50억의 피해를 끼친다면 그에 상응하는 hedge position을 구축할 수 있습니다.

반대로 return 측면에서도 특정 event의 발생이 향후 회사에 어느 정도의 cumulative profit을 가져다줄 수 있을지 예측할 수 있게 되고, 이를 적정 요구 수익률로 할인하게 되면 현재의 intrinsic value를 수정할 수 있음. 남들이 하지 않은 모델링을 해서 얻은 intrinsic value 값은 현재의 주식이 어느 정도 고/저평가되어 있는지 판단할 수 있는 척도가 됩니다.

표본의 수가 많아질수록 예측 값은 더욱 정밀해지는데 이는 빅데이터를 통해서 얻을 수 있음. 데이터를 큐레이션 하고 모델을 최적화하는 것이 문제겠지만 이를 해결했다는 전제 하에 예측 값은 정밀해지고, 이를 다시 독립변수로 활용하게 된다면 향후 판단에 많은 도움이 됩니다.

데이터를 긁어모으고 모델에 넣고 나온 값을 어떻게 해석할 것인지는 인간의 주관이 많이 개입됨. 따라서 시간과 인력이 동시에 필요하고 사람에 따라서 값에 오차를 보이는 한계가 있음. 인공지능을 사용하게 되면 일련의 과정이 간소화되고 시간과 돈을 많이 아낄 수 있지만, unsupervised 된 모델을 사용한다면 input과 output 사이에 어떠한 과정을 거쳤는지 알 수 없는 blackbox 구간이 나와 모델의 output에 전적으로 기댈 수 없다는 단점이 있습니다.

이는 모델의 예측값과 실제 나온 현실의 값을 비교하면서 모델을 수정해 나가는 supervised 모델과는 달리, 모델의 어느 부분부터 손을 대야 할지 모른다는 단점이 있지만, 시간이 지남에 따라 deep learning을 통한 모델의 자체적 수정으로 문제가 해결될 수 있는 가능성이 존재. 이 경우에는 모델이 과적합 되었을 가능성이 있음. 결국 quality가 좋은 input data를 자체적으로 생산해 내고 deep learning model이 혼자서 테스트해 나가는 것이 최종적 해결 방법이 될 것으로 보입니다.

금융권 채용만 보더라도 데이터 사이언스, quant를 더 많이 뽑고 트레이더를 줄여가는 모습을 보이고 있음. 예대마진의 축소와 수수료 절감으로 인해서 전통적인 방법으로 수익을 창출해 내는 데 한계를 보이고 있으므로, 개인들의 트레이딩 성향과 과거 실적, 투자 사이즈를 토대로 맞춤형 차별화 서비스를 제공하고 수익을 창출하는 방향으로 가야 할 것으로 보입니다.

이 또한 인공지능 모델을 잘 만들어 낸다면 상담 인력을 최소화함으로써 금융 회사의 수익을 극대화할 수 있을 것으로 보이고, 현재 트렌드 또한 그쪽으로 가고 있는 것으로 보임. Fintech의 등장은 전통적 트레이딩의 근간을 흔들어 놓을 것입니다.

모델이 쓰는 input data는 주가 추세와 회계 자료 등 계량화 되어 있는 과거의 지표를 사용하는 경우가 많음. Footnotes나 공시 등 unstructured data를 valuation에 취합하는 방법을 지향하는 것도 하나의 방법이라고 생각합니다.

그렇다면 금융권에 있는 인력들이 모두 4차 산업의 파도에 밀려나가 대체될 것인지?

개인적으로는 그렇지 않다고 생각함. 경리, 은행 텔러 등 단순 업무직은 대체될 가능성이 높지만 회계 감사나 회사 혹은 산업, 더 나아가 국가와 국제 경제를 예측하는 것은 숫자 그 이면을 보는 것이므로 공상 과학 소설이나 SF 영화에 나오는 것처럼 휴머노이드가 나오지 않는 이상 near future에는 불가능하다고 생각. 세상은 논리만으로 돌아가지 않습니다. 이는 서울대 경영학과 나온 사람이 주식시장에서 모두 슈퍼개미가 되지 않는 것만 봐도 알 수 있음. 금융권 영업직도 아직은 wining and dining, 즉 네트워킹의 영향이 더 큰 사업인 것 같음. 리스크 관리 또한 아직 인간이 해야 하는 부분이 큽니다.

기관과 투자은행이 개인보다 유리한 부분은 고급인력, 오랜 기간에 걸친 방대한 데이터, 정교한 모델, 네트워크, 빠른 거래 체결과 자본력, 특정 조건을 만족해야 진입할 수 있는 거래들입니다. 어떻게 보면 정보의 비대칭성을 갖고 있으나 개인이 이길 있는 방법이 없을 것 같아 보입니다. 그러나 개인이 유리한 점은 작은 사이즈로 유동적으로 치고 빠질 수 있다는 점임. 물론 요즘 개인 투자에 정부가 많이 개입해 효율적 시장 조성을 방해하는 것 같은 측면은 있으나 유연한 대처가 쉽다는 사실은 변하지 않을 것입니다.

조금 다르게 생각해 보면 불리한 상황일 때 무조건 이기려 달려드는 것보다 전략적 제휴를 맺는 방법도 좋다고 생각함. 금융기관이 제공하는 active 펀드의 수익이 장기적으로 시장수익률을 상회할 때 내가 갖고 있는 자본의 일정 비중을 투자하거나, 이길 수 없는 싸움이라고 생각한다면 대부분의 비중을 쏟는 것도 나쁘지 않습니다. 다만 과거의 실적이 미래의 실적을 보장하지는 않으니 시장 상황의 변화와 active fund의 구성 혹은 운용 전략의 유효성은 개인적으로 깊게 분석해 볼 필요가 있습니다.

사실 모든 재테크의 근본은 '특정 이벤트가 일어났을 때 상품의 가치가 어떻게 그리고 얼마나 변화할 것인가'를 예측하고 유리한 포지션을 취하는 것에 있습니다. 개인 투자자로 성공하는 방법은 예측의 성공 빈도를 높이는 것입니다. A라는 사건이 일어났을 때 B의 예측값이 달라지는 것은 베이즈 정리와 정의가 같음. 베이즈 정리는 각각의 이벤트가 일어날 '확률'을 알고 있다는 전제가 있어야 합니다. 따라서 얻어진 예측값 또한 확률로 나타납니다.

중요한 것은 통계를 앎으로써 감으로 오르거나 내릴 것 같아 투자하는 것에서 계량화 된 리스크와 리턴을 토대로 시나리오를 구성해 보고 대응 방법을 구상하는 '확률적 사고'를 할 수 있다는 것입니다. 여기에서 항상 강조하던 '예측보다는 대응의 영역'이라는 결론이 도출됨. 예측의 중요성을 무시하는 것이 아니라 그를 통한 시나리오 구상과 원칙에 따른 행동이 수반되어야 행동의 긍정적 강화가 이루어지기 때문입니다. 사후적 검증과 예측이 무엇 때문에 틀렸는가와 고려하지 못한 변수들을 생각함으로써 다음번 예측이 더욱 정교해지고, 이를 통해서 예측 성공의 비율이 높아집니다. 손익비를 관리하는 것과 직결되는 중요한 부분입니다.

확률적 사고는 극단적 outlier 또한 염두에 두고 있어야 함. 그린스펀은 2008년 글로벌 금융 위기 때 변수의 극단값을 생각하지 않고 과거의 추세만으로 손실 확률을 가정하였기 때문에 mortgage 상환 디폴트를 시발점으로 한 syndicate loan 상품과 CDO 시장의 붕괴, 나아가 기업 간 자금 파이프라인 경색과 국제적 파급을 막지 못한 점을 항상 아쉬워했습니다. 여기서 얻을 수 있는 교훈은 시장 전체가 위로든 아래로든 일정 range를 넘어서 크게 변할 때 생각지 못한 시나리오가 펼쳐질 수 있으니, 거기에 대한 대응 방법 또는 헷징 포지션을 구축해 놓아야 한다는 점입니다.

또한 통계 모델링은 인과 관계를 명확히 보여 주지 않는 경우가 많음. A가 B에 어떤 영향을 미치는지 상관 계수를 보일 수는 있으나 그 이유와 무엇이 원인이고 결과인지는 알려주지 않는 경우가 많습니다. 그러나 영향을 준 이유는 시장 sentiment에 다르게 작용할 수 있기 때문에 과거 데이터에서 유의미한 상관관계를 찾아냈다면 그 이유에 대해서 개인적으로 분석해 볼 필요가 있습니다.

728x90

LIST

'say와 AI 챗봇친구 만들기 보고서' 카테고리의 다른 글

"올 것이 왔다"…결국 터진 AI 보이스피싱 / 비머pick / 비디오머그 (1)	2023.06.13
현실로 다가온 AI와의 동거 (KBS_313회_2023.06.10.방송) (1)	2023.06.13
가짜 인공지능을 구분하기 위한 AI의 조건 [AI가 스스로 설명하는 ‘생성형 AI ’ 와 ‘ 인공일반지능’] (0)	2023.06.12
고급 AI는 무섭지만 지구를 구하는 데 도움이 될 수 있습니다. (1)	2023.06.11
초거대 AI 개발전쟁 스타트… [인터넷이 바꾼 세상, AI는 더 바꾼다] (0)	2023.06.11

빅데이터 드립 [통계, 빅데이터와 인공지능은 왜 알아야 하는 걸까?]