이글루스 | 로그인  


세계 각국의 국민성(문화)의 유사도 측정

홍춘욱님의 블로그에서 국민성 거리를 계산 할 수 있다는 블로그 포스팅을 보았다.

https://blog.naver.com/hong8706/40202778574

포스팅에 있는 홈스테드 지표를 내려받아서 야밤의 데이터 덕후질을 해볼까 했다.
http://www.geerthofstede.eu/dimension-data-matrix

파이썬으로 데이터를 처리해서 중간에 값이 없는(!NULL) 셀을 재구성한 후 클러스터링을 해볼까 했지만 우선 엑셀로 계산해보았다. 데이터에는 총 6가지 지표가 있는데 이는 권력 격차(pdi, power distance), 남성성(mas, masculinity) , 리스크 회피성(uai, uncertainty avoidance), 장기목표지향성(ltowvs, long-term orientation), 개인주의(ivr, individualism) 이다.

이에 6개의 차원이 서로 연관성이 적다고 가정하고 (물론 mas와 uai가 음의 상관관계에 있다는 것을 알려져 있지만) 각 국가의 국민성을 6차원 공간에 "국민성 벡터"로 나타낸 후, 국민성 벡터 간의 각도를 측정했다. 우선 국민성 벡터로 나타낸 점들의 중심으로 원점을이동한 후에 내적(innter product)을 통해 각도를 측정했기 때문에 내적값이 1인 경우는 국민성 벡터가 6차원 공강에서 같은 방향을 가리킨다는 뜻이다.

이러한 방식은 벡터의 방향만 나타내고 길이(강도)는 나타내지 않기 때문에 적확한 클러스터링은 아니지만 점들의 중심으로 원점을 이동했기 때문에 어느정도 유효하다.

이에 한국(Korea South)과 가장 방향이 일치하는 곳, 반대 되는 곳 연관이 적은 곳을 나열하자면 다음과 같다.
(밑에서 Correlation이 100%이면 한국의 국민성 벡터와 해당국가의 국민성 벡터가 이루는 각도가 0도, 즉 같은 방향을 가리키고 있는 것이고 -100%이면 180도 각을 이루며 완전 반대 방향을 가리키고 있는 것이다.)

* 국민성 벡터의 방향이 한국과 일치하여 연관이 높은 나라

country Correlation
Taiwan 92%
Bulgaria 83%
Croatia 77%
Russia 76%
대만과 불가리아에 가보고 싶다.

* 국민성 벡터의 방향이 한국과 180도 반대인 나라

country Correlation
Australia -83%
U.S.A. -81%
Ireland -75%
Canada -71%
New Zealand -65%
Iran -65%
내가 미국에 살았어서 그런지 미국과 한국의 국민성이 다르다는 점이 안 와닿는다. 방향이 180도에 가까운 나라들은 대부분 영미권이라고 할 수 있겠다.


* 국민성 벡터의 방향이 한국과 수직인 나라들

country Correlation
India 0%
Chile 0%
Switzerland 1%
Brazil 1%
Austria -3%
Thailand 3%
Hungary -4%
Netherlands -5%
Malta -6%
Peru 6%
Poland -6%
Uruguay -7%
Italy 7%

클러스터링에 문제가 있는지 몰라도 한국과 국민성이 비슷하다고 유명한 이탈리아가 국민성 벡터가 수직인 나라로 나온다.


* 국민성 벡터의 단순거리(dist)와 표준편차로 표준화한 거리가 가까운 나라들
country dist z-score dist
Taiwan 27.07 0.51
Bulgaria 37.29 0.77
Russia 45.59 0.86
Croatia 46.49 0.96
국민성 벡터의 각도를 측정 했을 때 한국과 이루는 각이 0도에 가까운 (100%에 가까운) 나라들이 한국과 거리가 짧다.


* 국민성 벡터의 단순거리(dist)와 표준편차로 표준화한 거리가 먼 나라들
countrydistz-score dist
Australia123.632.56
Denmark123.062.38
U.S.A.121.622.51
Ireland118.492.36
Venezuela117.512.42
New Zealand115.662.34
Great Britain113.492.27
Sweden111.742.17
Africa West109.272.23
Mexico108.842.25
Trinidad and Tobago107.892.20
Canada106.892.19
Colombia105.572.20
Norway102.842.08
El Salvador100.502.09

반면 거리가 먼 나라들은 많은 숫자가 존재하고 거리값 자체도 상당히 촘촘히 분포하는데 이유는 다음과 같다. 국민성 벡터 사이의 각도를 측정하는 경우 한국과의 각도가 180도이거나 직각(90도)일 때 공히 거리가 멀기 때문이다.

그냥 저기에 데이터가 있기 때문에 한 번 계산해봤다. 머신러닝으로 나라들을 한 번 분류해보고 빈 값(NULL)이 있을 때 보정하여 분류하는 것을 한 번 해봐야겠다.

by 질럿 | 2018/05/12 21:32 | 생활의 발견 - 과학기술 | 트랙백 | 덧글(3)

트랙백 주소 : http://zealot.egloos.com/tb/5907575
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 漁夫 at 2018/05/13 11:26
길이를 넣으면 어떻습니까?
Commented by 질럿 at 2018/05/14 22:55
각도에 길이(두 점의 거리)를 동시에 고려하자는 말씀이신지요?
Commented by 漁夫 at 2018/05/18 08:42
네 그렇습니다. 전 사실 거리가 더 중요할 수 있다고 느낍니다.

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶