* 우바[우리말답게 바로쓰기]/ 세계문자

지난 200년간, 낱말 신생은 줄고 퇴장은 늘고

사이박사 2020. 3. 27. 17:07

[수첩] 지난 200년간, 낱말 신생은 줄고 퇴장은 늘고

"표준어 강화 출판산업과 디지털문서의 철자 검사 기술 때문인 듯"

물리학자들, 생물종 진화 빗대 영어·스페인어·히브리어 단어 분석

한정된 단어사용 점유율 둘러싼 경쟁과 적자생존의 진화모형 제시



00word4낱말은 만들어지고 또 사라진다. 말의 탄생과 사멸은 한 시대를 보여주지만, 동시에 언어 나름의 고유한 진화 패턴을 보여주기도 한다. 위 화면은 잘 쓰지 않는 '죽은 낱말'이 영국 '옥스포드 사전'에서 사라지는 것을 막기 위해 사라지는 말을 자주 써서 살려내자는 온라인 캠페인 사이트. 출처/ http://savethewords.org/site.swf





떤 낱말의 탄생과 성장, 그리고 소멸 과정을 보면 그 말이 쓰인 시공간의 문화를 엿볼 수 있다고 합니다. 인류학이나 사회학에서 언어 연구를 하는 것은 이런 이유 때문이겠지요. 단순하게 말하면 농경 사회에 자주 쓰이던 말과 산업 사회에 새로 생겨 널리 쓰이는 말이 다를 테고, 디지털 사회에서는 또다른 말들이 만들어지고 더 자주 쓰일 테니까요. 이런 언어의 탄생, 성장, 소멸의 과정은 생물 진화에 빗대어 '언어 진화'라는 말로 부르기도 하는 모양입니다. 여기에서 낱말은 생물종에 비유되기도 합니다.  예전에 언어 진화의 통계분석을 통해 '일본어가 한국어와 일본어의 공통조상 언어에서 갈라져나왔을 가능성'을 제시한 논문을 발표했던(사이언스온과 한겨레 보도, 미국 뉴욕타임스 보도) 일본 도쿄대 연구자인 션리는 저와 나눈 이메일 인터뷰에서 이런 말을 한 적이 있습니다.


"무생물인 인간의 언어도 생물처럼 진화한다는 것이 이 논문이 추구하는 제일 일반적인 명제입니다. 이 논문이 추구하는 두 번째 명제는 인간의 언어는 그 언어를 사용하는 사람들의 생물학적 역사와 유사한 패턴을 갖는다는 점입니다. 따라서 마치 디엔에이(DNA)를 통해 어느 특정한 인간의 집단이 어떠한 경로로 지금에 이르렀는지를 밝히는 것과 동일한 방식으로 언어를 가지고 그 언어가 어떠한 과정을 통해 지금에 이르렀는지를 밝혀낼 수 있다는 것, 그것이 이번 논문이 전하려 하는 메시지입니다."


최근에 인터넷에서 이런저런 과학 뉴스를 읽다보니, 언어의 진화를 연구하는 사람들 중에는 통계물리학자들도 있더군요. 언어의 진화를 통계물리학의 기법으로 연구하는 이탈리아 IMT루카고등연구소, 미국 보스턴대학, 이스라엘 바르일란(Bar-Ilan)대학의 물리학자들은 1800~2008년 기간에 영어와 스페인어, 히브리어로 출간된 도서에서 1000만 개 단어의 변천을 통계 기법으로 분석했습니다. 연구팀은 이런 분석을 통해 단어의 사용 선택(use selection)과 언어 진화와 관련해서 몇 가지 흥미로운 점을 발견해 물리학 분야의 온라인 공개논문 데이터베이스인 아카이브(arXiv.org)에 논문을 발표했습니다 (참조: 미국물리학회 발표 초록, 관련 뉴스 보도). 연구팀은 이 분석이 인터넷기업 구글이 구축한 7개 언어 출판물의 단어 변천을 검색할 수 있는 '구글 엔-그램(Google n-gram)' 데이터베이스를 활용해 이뤄졌다고 밝혔습니다 (엔-그램은 현재 세계 도서의 4%를 데이터베이스로 구축했다고 알려졌는데, 이곳에서 예컨대 "love"라는 낱말을 써넣고 검색하면 "love"가 현재보다 19세기에 훨씬 더 많이 쓰였음을 확인할 수 있다).


이 논문에서 먼저 눈에 띄는 점은 1800년 이래 새로운 단어의 탄생률(birth rate)는 줄어들었으며 반면에 기존 단어의 소멸률(death rate)은 늘어나고 있다는 것입니다. 아래의 복잡한 그림1이 그런 추세를 보여줍니다.  아래 그림에서 윗것은 단어 탄생률의 추세를, 아랫것은 소멸률의 추세를 나타냅니다. 탄생률보면 영어, 스페인어, 히브리어가 모두 점차 낮아지고 있습니다. 히브리어의 경우에는 1920년대 부근에서 급격히 탄생 속도가 증가하는 추이가 나타나는데 이는 영국 외상 밸포어가 팔레스타인에 유대민족의 국가 수립을 지지한 1917년 밸포어선언 이후에 히브리어가 이스라엘의 민족어로 부활하며 히브리어 낱말의 탄생률이 급격히 뛰어오르는 추세를 보여준다고 합니다. 이는 언어 진화가 정치적 사건의 영향을 받기도 함을 보여주는 경험적 증거라고 연구팀은 풀이합니다.


00word2


반면에 단어의 사멸률은 증가해왔으며, 특히 1950년 대후의 증가율이 가파르게 나타납니다. 연구팀은 낱말 사멸률의 증가 추세는 1950년대 이래 현대적인 출판물에서 표준어 사용이 엄격해지고 또한 문서작성의 디지털화가 이뤄지면서 철자의 자동검사 테크놀로지도 함께 확산됐기 때문인 것으로 분석했습니다. 출판과 디지털화의 영향이라는 것이다.


[* 여기에서 탄생률(birth rate)과 사멸률(death rate)이라는 개념은 연구팀이 따로 정한 것입니다. 연구팀은 "특정한 연도에 나타나는 탄생 단어의 변동량과 소멸 단어의 변동량은 특정 언어의 전체 어휘와 비교할 때 그 의미가 나타난다"며 "어떤 해에 기록된 각 언어의 총 어휘 숫자에 대해 같은 해에 나타난 탄생과 소멸의 단어 숫자를 규격화하는 방식으로 탄생률과 소멸률을 정의한다"고 말합니다. 즉, 여기에서 탄생률과 사멸률은 어휘 규모가 다른 영어, 스페인어, 히브리어를 비교하기 위해 설정된, 총 어휘 수에 대한 상대적 개념으로 이해됩니다.]


아래 그림은 연구팀이 "낱말의 진입 과정에서 나타나는 적자생존"을 설명하는 데 쓰인 것입니다. 각 해에 탄생하거나 사멸한 단어의 상대적인 사용 빈도를 보여준다고 합니다. 이 그래프를 보면, 최근 20~30년 기간에는 새로 만들어진 낱말들의 상대적인 사용 빈도가 급격히 증가했으며, 반면에 사멸하는 낱말들은 사용 빈도가 급격히 줄어들어 대조적인 모습을 보여줍니다. 연구팀은 논문에서 이처럼 새로운 낱말의 사용 빈도 추세는 현대사회의 테크놀로지와 개념에 상응하는 새로운 기술 용어들(블로그, 이메일 같은)의 상대적 사용 빈도가 늘어나는 것을 보여주며, 사멸하는 낱말의 사용 빈도 추세는 출판물의 편집 표준이 더 강화되고 오자를 수정해주는 워드 프로세서 기능의 확산 때문에 줄어드는 것으로 풀이했습니다.  사용 빈도가 바로 적자생존(survival of the fittest)의 과정을 보여준다는 것입니다.


00word3



구팀은 논문에서 낱말 생성-소멸의 추이를 설명하면서 줄곧 생물학적 진화 모형을 빗대어 사용하는데, 그것은 단순한 레토릭이 아니라 이 논문에서 매우 중요한 추론의 근거가 되고 있습니다. 거기에는 다음과 같은 전제가 있기 때문입니다.


“어떤 언어에서 (새로운) 단어가 출현할 수 있는 것은,  새로운 생물종이 어떤 환경에서 태어날 수 있는 것과 마찬가지이다. 진화론의 선택 법칙(selection law)은 새 단어의 지속가능성에 압력 요인으로 작용할 수 있다. 왜냐하면 단어가 사용되는 (화젯거리나 책 같은) 자원은 한정돼 있기 때문이다. 마찬가지로 문화적이고 기술적인 요인들로 인해 단어 사용이 제한될 때에는 옛 단어들이 소멸(extinction)로 몰릴 수 있다. 이는 환경 요인들이 생물종의 생존과 번식력을 바꿈으로써 살아 있는 생물종의 생존 역량을 변화시키는 것과 비슷하다.” (논문 2쪽)


연구팀은 이를 보여주는 경험적인 증거를 제시합니다. 즉, ‘단어 사용(word use)’의 한정된 자원 가운데 더 많은 점유율을 서로 차지하려는 낱말들 간의 경쟁에서 어떤 낱말이 더 많이 사용되는 ‘선택’을 받느냐에 따라 언어의 탄생과 사멸이 좌우된다는 것이지요. ‘엑스선’이라는 말이 비슷한 뜻을 지닌 다른 낱말들과 벌인 경쟁에서 살아남은 사례가 그것을 보여준다고 연구팀은 말합니다(그림2).


00word1


영어에서 ‘뢴트게노그램(Roentgenogram)’은 엑스선의 주요한 발견자인 빌헬름 뢴트겐(Wilhelm Röntgen)의 이름을 따서 만들어진 것이었습니다. 그러나 이 낱말은 엑스선(Xray)과 라디어그램(Radiogram)이라는 비슷한 의미의 다른 두 단어와 경쟁을 벌여야 했습니다. 1900년 이래 세 단어의 사용 빈도를 분석한 그림2를 보면, 세 낱말의 사용 빈도에서 얻어진 평균 사용 빈도(점선)는 1920년 이래 대체로 비슷한 규모를 유지했으나(즉, 세 낱말의 사용 빈도를 합친 총규모는 비슷하게 유지됐으나) 각 낱말의 사용 빈도는 크게 요동하는 추이를 보여주고 있습니다. 연구팀은 “이는 언어 사용에도 한정된 ‘시장 점유율(market share)’이 있으며 낱말들이 이를 서로 더 많이 차지하는 경쟁을 벌임을 보여준다”며 “엑스선이란 낱말이 더 많은 사용 빈도를 보인 것은 이 말이 짧아 ‘적응성 이점(fitness gain)’을 지닐 뿐더러 과학출판에서 영어가 기본 언어가 되었기 때문일 것”이라고 풀이했습니다.


00word6» 판소리에는 현대사회에서 잘 쓰지 않아 사라졌거나 사라질 위기에 처한 말들이 많이 담겨 있다. 한겨레 자료사진

논문에서 제시하는 몇 가지 발견은 어찌보면 이미 언어사회학 같은 분야에서 논의되었을 상식적인 얘기처럼 들릴 수도 있겠지만, 연구팀은 이렇게 '정량적인' 수치로 나타나는 언어 진화의 패턴이 언어 진화의 이론 모형을 개발하는 데 벤치마크로서 요긴하게 쓰일 수 있을 것으로 기대하고 있습니다. 긴 시간을 거치며 나타나는 언어 또는 수많은 단어의 정량적 변화 패턴은 통계물리학의 분석 기법을 통해 독특한 모습으로 드러나, 주로 정성적인 연구를 하는 언어학, 사회학, 인류학 같은 다른 연구분야에도 새로운 통찰을 제시할 수 있을 것 같습니다. 그게 아니더라도 언어는 어떻게 진화 또는 변화하는가라는 주제는 언어를 쓰는 우리 모두한테 흥미로운 주제가 되는 것 같습니다.


아쉬운 점이 있다면, 영어와 스페인어, 히브리어 낱말의 변천에 관한 이번 연구결과를 보면서 매우 급격한 변동의 현대사를 거친 우리 사회에서 역시 급격한 변동을 거쳤을 우리말글은 과연 어떤 독특한 진화의 패턴을 보여주고 있을까 하는 궁금증이 잠시 생겨났지만 우리 말글에 관한 자연과학적 연구는 아직 찾아보기 힘들다는 점이었습니다. 또한 놀라운 점이 있다면, 이번 연구팀이 이용한 1800~2008년 영어, 스페인어, 히브리어 단어들의 데이터베이스는 구글의 출판물 데이터베이스인 구글 엔그램(Google n-gram)을 이용했다는 것이었습니다. 아직 대상 시기의 도서 가운데 4% 정도만을 디지털화했다고는 하지만, 막강한 검색능력을 지녀 학자들도 이제는 구글 검색기능을 분석 도구로 활용하고 있음을 보여주는 것이어서, '구글의 데이터 제국'을 실감하게 해줍니다.






논문의 '토의' 부분에서 발췌


 

“글로 쓰인 언어가 디지털화하면서, 단어 수를 세어 정량적인 패턴을 추출하는 방법에 기반을 두는 문화 추세 분석이 인간사회학에 새로운 통찰을 주는 잠재력이 있는 다학제 분야로 떠오르고 있다. 그렇지만 매일 인터넷 자료에서 추출할 수 있는 메타 데이터의 양은 현기증을 일으킬 정도로 엄청나다. 데이터 홍수에서 잡음(노이즈)을 걸러내는 객관적인 의미 수준을 정의해야 하는 실질적인 이슈도 큰 문제이다.…이와 대조적으로, 편집 표준을 충족해야 하며 시장의 수요와 공급 원리에 충실해야 하는 출판 도서나 잡지에는 잘 정의된 단어 등록의 요건이 있다. 그렇지만 최근에 와서 역사 문헌들에서 뽑은 방대한 정보들에 접근할 수 있게 되었다.…

 

이번 연구는 낱말이 한정된 자원 체계(system) 안에서 경쟁하는 행위자(actor)라는 경험적 증거를 보여준다. 시장점유율을 놓고 기업이 경쟁을 벌이듯이, 낱말들도 글쓰는 이나 말하는 이한테 사용되고자 또한 독자와 청자의 관심을 더 얻고자 경쟁을 벌이기 때문에 마찬가지 성장의 통계(growth statistics)를 보여준다.…

 

우리는 엑스레이(X-ray) 사례를 이 논문에 담았다. 그것은 제로섬 게임에서 관련 카테고리의 낱말들이 어떻게 서로 경쟁할 수 있는지 보여준다. 더욱이 이런 경쟁은 아무것도 없는 진공 상태에서 일어나는 것은 아니다. 오히려 그 동역학은 확산과 테크놀로지에 상당히 연관돼 있다. 어휘 확산은 여러 척도(규모)에서 일어난다. 비교적 작은 집단 안에서 일어나기도 하고 국가들 사이에서도 일어난다. 낱말 선택의 밑바탕에 있는 테크놀로지의 힘은 지난 20년 동안 두드러지게 변했다. 디지털시대에 자동 철자검사 프로그램이 등장하면서 철자검사에 의해 인정받은 낱말들은 오자나 표준이 아닌 것을 희생시키며 ’번식 적응(reproductive fitness)’에서 눈에 띄는 도약을 이뤄냈다.

 

…세계 경제의 쇠퇴와 부흥과 비슷하게, 낱말의 시장(marketplace)도 역사 사건이 전개될 때 지구촌 규모의 파동을 띠며 뜨고 진다. 위험과 시장 지배를 제한하고자 마련된 금융 제재 조처들과 비슷하게, 사전이나 철자검사 같은 표준화 테크놀로지는 단어 진화의 특징을 결정하는 과정에서 강력한 힘을 발휘한다. 맥락이 중요하다. 그래서 우리는 어떤 무대에서는 어떤 단어를 좋아하고 다른 무대에서는 그렇지 않고 하는 식으로, 다양한 언어 생태계 안의 여러 서식처(niches)가 이질적인 선택 법칙(selection law)을 지닌다고 내다본다.…

 

우리는 어떤 낱말이 대략 30~50년의 나이에 달했을 때 단어 성장률 변동에서 눈에 띄는 정점이 나타난다는 점을 발견했다. 우리는 이것이 한 낱말이 표준 사전에 등재되는 데 필요한 시간 규모에 상응하는 것이라고  생각한다.… 30~50년의 시간 규모가 인간의 '세대'라는 시간 규모와 대체로 일치한다는 점도 흥미롭다. 언어 진화에서, 새로운 세대의 화자들이 행하는 두드러진 역할은 언어학에서 이미 받아들여지고 있다.…

 

우리는 단어 성장률의 분포가 거대 규모의 갈등 시기에 확대된다는 점을 발견했다. 그것은 제2차 세계대전 시기에 영어, 프랑스어, 독일어, 러시아어의 언어자료들에서 …(통계적으로)… 드러난다. 이는 새로운 주제와 관념을 만들어내는 비옥한 번식의 토대를 만들어주는 공중의식의 통일을 통해 나타나는 것으로 이해될 수 있다. 전쟁 기간에 사람들은 지구적인 이슈에 관심을 더 쏟을 수 있다. 눈에 띄는 것은 2차대전 동안 현저한 변동이 스페인어 언어자료에서는 관찰되지 않는다는 점이다. 이는 전쟁에서 스페인과 라틴아메리카가 상대적으로 작은 역할을 했음을 기록으로 보여주는 것이다.”(논문 7~8쪽)

관련글