* 우바[우리말답게 바로쓰기]

읽기의어때(어떠함)_빅데이터 인문학(책),안경(현미경+망원경),빅데이터+롱데이터+하이프 싸이클

사이박사 2019. 9. 10. 15:59


갈2-4(읽기의어때)_빅데이터 인문학.hwp


<적바림_빅데이터 인문학, 엔그램, 하이프 사이클>

 

사이 구연상(숙대 기초교양대 교수/철학 박사)

 

살핌: 에레즈 에이든&장바티스트 미셸 지음, 김재중 옮김, 빅데이터 인문학: 진격의 서막 800만 권의 책에서 배울 수 있는 것들, 사계절, 2015.

 

따옴(14.2): 1세기 말의 새로운 발명품인 안경은 이탈리아 전역에서 들풀처럼 퍼져나가기 시작했다. 아예 존재하지도 않던 안경이 수십 년 만에 단순히 진기한 물건에서 아주 흔한 물건으로 바뀌었다. (14.3) 안경이 유럽을 넘어 전 세계로 퍼져나가면서 시력검사가 성황을 이루었으며, 렌즈는 만드는 기술도 발전하고 렌즈 값도 싸졌다. 당연히 여러 겹의 렌즈가 겹쳐졌을 때 어떤 일이 일어나는지를 다룬 실험도 등장했다. () 합성렌즈(compound lenses)는 맨눈으로는 보이지 않던 세계를 새로이 드러내 보였다.

 

따옴(14.4): 현미경은 우리 주변의 모든 동식물이 아주 작고 물리적으로 분리된 단위로 잘게 나뉘어 있다는 것을 보여주었다. 이 사실을 발견한 로버트 후크(Robert Hooke)는 이러한 단위들이 수도원의 거주 구역과 비슷하다고 주장하며, 이것을 세포(細胞, cell)라고 명명했다. 현미경은 미생물(微生物, 마이크로브 microbes)의 존재도 밝혀냈다.

 

따옴(15.2): 30배율 망원경을 가지고 갈릴레오는 우주의 수수께끼와 씨름했다. [, 은하수, 금성, 목적의 위성들] (15.3) 갈릴레오의 관측은 지구가 모든 것의 중심에 자리 잡고서 정지해 있다는 프톨레마이오스의 개념에 반하는 결정적 증거로 활용됐다. 그의 [망원경을 통한] 관측으로 태양이 중심이고 그 주위를 행성들이 돈다는 코페르니쿠스의 관점이 나올 수 있었다. 빛을 이용한 단순한 장난감에 불과했던 광학렌즈는 갈릴레오의 민첩한 손을 거치면서 과학혁명을 일으켰을 뿐만 아니라 동시에 서구인의 삶에서 종교가 지닌 의미에도 변화를 가져왔다. 이 일은 근대 천문학의 탄생 이상이었다. 나아가 그것은 근대 세계의 탄생을 의미했다.

 

따옴(20): 컴퓨터과학에서 정보를 특정하는 데 사용되는 단위는 2진수(binary digit)를 줄인 비트(bit). ‘-아니오 질문의 답을 1비트로 볼 수 있는데 1, 0아니오. 8비트는 1바이트(byte)로 불린다.

따옴: 현재 보통 사람의 데이터 발자국, 즉 전 세계적으로 한 사람이 연간 만들어내는 데이터 양은 거의 1테라바이트(terabyte)에 가깝다. 이것은 약 8조 개의 예-아니오 질문과 맞먹는 양이다. 집단적으로 보면 인류는 매년 5제타바이트(zettabyte)의 데이터를 만들어낸다. 이것은 40,000,000,000,000,000,000,000(400/) 비트다.

이처럼 큰 수는 가늠하기 어려우니 알기 쉽게 구체적으로 예를 들어보겠다. 만약 당신이 1메가바이트(megabyte)가 담긴 정보를 손으로 직접 쓴다면 그 결과 나오는 10의 행렬은 에베레스트 산(8,848미터)보다 다섯 배 높은 것이다. 만약 1기가바이트(gigabyte)를 손으로 직접 쓴다면 지구의 적도를 한 바퀴(40076.6km) 돌 것이다. 1페타바이트(petabyte)를 손으로 쓰면 인간이 만든 물체 가운데 우주로 가장 멀리 날아간 보이저 1호 탐사선까지 왕복할 수 있을 것이다. 1엑사바이트(exabyte)를 손으로 쓰면 켄타우로스 자리의 알파별(Alpha Centauri)에 도달할 것이다. 만약 당신이 인류가 1년에 만들어내는 5제타바이트를 모두 손으로 쓴다면 은하수에 있는 은하계의 중심(galactic core)에 도달할 것이다.

 

따옴(21.2): 이런 종류의 기록을 빅데이터(big data)라고 부르는 이유다. 오늘날의 빅데이터는 빙산의 일각에 불과하다. 데이터 저장 기술이 발달하고, 대역폭(bandwidth)이 높아지고, 우리의 삶이 서서히 인터넷으로 옮겨가면서 호모사피엔스가 남기는 데이터 발자국의 양은 2년마다 두 배씩 늘고 있다. 빅더에터는 더 커지고, 더 커지고, 더 커지는 중이다.

 

(22.~23.1): 스탠퍼드의 경제학자 존 레빈(Jon Levin)은 실제 세계의 시장에서 가격이 어떻게 성립되는지를 조사하기 위해 이베이(eBay)와 협력했다.

 

(23.2): UC샌디에이고의 제임스 파울러(James Fowler)가 이끄는 연구팀은 페이스북과 협력해 6100만 명에 달하는 페이스북 회원을 상대로 실험을 수행했다. 이 실험에서 사람들은 친한 친구가 유권자로 등록했다는 사실을 알게 됐을 때 유권자 등록을 하는 경향이 더 높다는 사실이 밝혀졌다.

 

(23.3): 노스이스턴 대학교의 물리학자 알베르트 라슬로 바라바시(Albert-László Barabási)는 몇몇 거대 전화 회사와 함께 사람들이 휴대전화로 남긴 다량의 디지털 흔적을 분석하여 수백만 명의 이동 경로를 추적했다. 그 결과 (24.1) 어떤 사람이 다음에 어디로 갈지를 예측하기까지 했다.

 

(24.2) : 소프트웨어 엔지니어인 제러미 긴스버그(Jeremy Ginsberg)가 구글에서 이끄는 팀은 인플루엔자가 유행할 때 사람들이 [검색하는 것을 분석해] 다가오는 독감 유행을 예측하는 시스템을 개발[했다.]

 

(24.3) : 하버드의 경제학자 라지 체티(Raj Chetty)() 좋은 선생님이 미치는 장기적 영향, 다른 다양한 정책적 개입에 관해 숨이 멎을 듯한 일련의 연구를 성취할 수 있었다.

 

(25.2): 네이트 실버(Nate Silver)는 빅데이터 접근법이 전국적인 선거의 승리를 예측하는 데 사용될 수 있을지 탐색하고 있다. () 그는 오바마가 2008년 선거에서 이길 것이라고 정확하게 예측하고~ 2012년 선거에서도 승자를 정확하게 예측했다.]

 

(27.2~): 롱데이터

 

(28.2): 대부분의 빅데이터는 최근의 사건들에서 생성된 최근의 기록들이어서 크기는 하지만 짧다. 근본적으로 데이터의 생성이 비교적 최근에 일어난 인터넷 혁신에 의해 촉진됐기 때문이다. 우리[글쓰미들]의 목표는 한 세대에 이어 다름 세대가 살다가 죽을 때까지 정도로 오랜 기간에 걸쳐 이어지는 문화적 변화의 유형을 연구하는 것이었다. 역사적 시간이라는 규모에서 일어난 변화를 탐구할 때 짧은 데이터는 제아무리 크다 해도 별다른 도움이 안 되기 때문이었다.

 

(33.): [우리가 7년에 걸쳐 만들어낸] 결과물은 우리가 컬처로믹스(culturomics)라고 부르는 언어와 문화, 역사에 대한 이상하고, 매혹적이고, 중독성 강한 접근법이다.

 

(34.1): 우리가 만든 엔그램(ngram) 데이터영문법의 변화에 관해 무엇을 밝혀냈고, 사전들이 어떤 실수를 했고, 사람들이 어떻게 유명해지며, 정부가 어떻게 사상을 억압하고, 사회가 어떻게 배우고 망각하는지에 대해 이야기할 것이다. 우리의 문화가 어떻게 결정론적으로 행동하는 것처럼 보이는지, 그리고 우리 집단의 미래가 지닌 여러 측면을 예측하는 일이 어떻게 가능한지를 조금이나마 언급할 것이다.

 

(34.2): 구글과 함께 우리가 만든 이 도구는 엔그램 뷰어(Ngram Viewer)라고 불린다. 2010년 세상에 공개된 엔그램 뷰어는 긴 시간 동안 특정한 단어, 특정한 아이디어가 얼마나 자주 언급되는지를 도표로 보여준다.

 

(43.3): 과학의 역사에서 장기적 관점의 가장 인상적인 사례는 찰스 다윈의 업적에서 찾아볼 수 있다. 다윈은 150년도 더 전에 배를 타고 여행하면서 온갖 종류의 생명체와 마주쳤는데, 갈라파고스 섬에서 만난 새들을 보고서는 이런 궁금증을 품었다. 저 핀치새들의 부리는 왜 저렇게 생겼을까? 더 일반적으로 말하면, 왜 모든 유기체는 그러한 모양으로 존재할까? (43.4) 왜 사물은 오랜 시간에 걸쳐 이렇게 존재하게 됐을까?

 

(45.2): 그러면 어떻게 언어의 진화를 탐구할 것인가? 생물학에서 진화의 폭넓은 패턴을 이해하려면 화석을 관찰하는 것보다 더 좋은 방법은 없다.

 

(46.2): 조지 킹슬리 지프(George Kingsley Zipf)(47.3) 마일스 L. 핸리(Miles L. Hanley)가 출간한 제임스 조이스의 율리시스단어색인(Word Index to James Joyce’s Ulysses)를 통해 거기에 등장하는 단어들의 수를 셌다.(ᄉᆞ) (48.3) 단어의 순위와 빈도 사이에는 반비례가 성립한다. 만약 어떤 단어의 순위를 숫자로 나타냈을 때 다른 단어의 순위보다 열 배 크다면예컨대 50위가 아니라 500위라면그것의 빈도는 다른 단어의 10분의 1이었다. [지프의 법칙]

 

(53.3): 불규칙동사는 어디에서 왔을까[왜 사라지지 않는가]?

 

(57.2): 동사는 그것이 빈도가 높을수록 생존하기에 더 합당하다.

[보기를 들어 잉글리시의 불규칙 동사는 그 수는 매우 적지만 그것들이 출현하는 빈도는 매우 높다. 그렇기 때문에 그것들은 규칙화로 대체되지 않은 채 불규칙 동사로 쓰인다.(ᄉᆞ)]

 

(66): 제목 > 장미를 분해해 꽃잎 세기 (67.1) 지프 이전에 책은 한 줄, 한 줄, 한 쪽, 한 쪽 읽고 이해하고 궁리하는 것이었다. 당신은 활짝 핀 장미처럼 형태(게슈탈트 Gestalt)를 받아들인다. (67.2) 그러나 지프의 기이한 질문은 책이 무엇이 될 수 있는가에 대한 극적이고도 새로운 개념을 내포하고 있었다. 이 질문은 그의 신묘할 정도로 놀라운 직관을 반영했다. 바로 텍스트의 작은 꽃잎들을 분석하되, 꽃무늬라는 맥락을 제거함으로써 수학적 설계의 증거를 찾아내는 대안적 형태의 읽기가 가능하다는 생각이었다.

 

------------------------------------

적바림_김기봉, 빅데이터의 도전과 인문학의 응전, 시민인문학(30), 경기대학교 인문학연구소, 2016.

 

구글 엔그램 뷰어를 가능하게 만든 것은 북스 라이브러리 프로젝트’(Google books library project). 이 거대한 기획은 2004년부터 현재까지 전 세계 13000만 권 책의 4분의 1에 해당하는 3000만 권 이상을 (12) 디지털화 했다. 이렇게 디지털화한 책들은 현대 인류의 삶과 생각의 변화 뿐 아니라 인류 문명 전체 흐름과 변화의 추세를 전망할 수 있게 해주는롱데이터. ‘롱데이터는 이전에는 볼 수 없었던 가장 큰 변화는 물론 작은 변화까지도 볼 수 있게 해주는 망원경과 현미경의 디지털 렌즈를 제공한다.

그림입니다.

원본 그림의 이름: CLP0000210c116a.bmp

원본 그림의 크기: 가로 806pixel, 세로 459pixel

 

(14)

위의 구글 엔그램 뷰어가 보여주는 것은 정보와 데이터가 가장 중요한 키워드라는 사실이다. 나중에 자세히 살펴보겠지만, 데이터-정보-지식은 하나의 피리미드를 이룬다. 피라미드에서 상위에 위치한 지식이라는 키워드가 세상의 변화에 흔들리지 않고 계속 일정한 수준을 유지하고 있다. 데이터가 정점에 이른 시점이 1987년이고, 정보에게 역전을 당한 해가 1990년이다.

그림입니다.

원본 그림의 이름: CLP0000210c0001.bmp

원본 그림의 크기: 가로 803pixel, 세로 353pixel <그림 2> 2012년 가트너(Gartner)하이프 사이클(Hype Cycle)’그래프>

 

매년 유망 IT 기술 트렌드를 예측하는 미국의 정보 기술 연구회사 가트너(Gartner)는 일반적인 제품 수명 주기그래프를 대체하는 신기술 하이프 사이클(Hype Cycle for Emerging Technologies)’를 개발했다. 이는 시간의 경과에 따른 기술의 성숙도(x)와 업계에 회자되는 가시성(y)을 이용해 ICT 기술의 진화를 설명하고, 이들의 미래 성장모습을 예측한다. 이 보고서는 기업들이 필요한 신기술을 올바르게 선택하고 도입하는 데 큰 도움을 주기 때문에 발표 때마다 집중적인 조명을 받는다.

 


갈2-4(읽기의어때)_빅데이터 인문학.hwp
0.67MB