Sanggu's blog: 한글 인코딩 깨짐 현상

한글 인코딩 깨짐 현상 - 기관연계 프로그램
기관연계 (EAI 또는 대내/외 채널) 할 경우 한글 깨짐 현상을 종종 겪게 된다.

예를 들면) 주민조회 등 외국인 주민 조회 연계시에 주소가
"포스코 더 샾 아파트" --> "포스코 더 ? 아파트"

또는 외국인의 귀화로 이전에 잘 쓰이지 않은 이름을 갖게 될시
"반똠앤" --> "김똠완" 이라는 새이름을 갖게 될시 "김?완"
해당 글자가 "?"로 표시되는 문자가 발생하고 있다.

거의 대한민국 행정정부가 전자적으로 처리되고 있는 현 상황에서 현재 국민, 또는 개발자의 불편을 조속히 해결하고 향후 이러한 문제가 발생하지 않도록 하기 위해서는 이문제에 대해 근본적인 대책이 필요하다.

현재 공공 정보 시스템의 문제는 "MS949" 또는 "EUC-KR" 캐릭터 셋 방식을 채택하고 있다.
(MS-949는 UTF-8을 기반으로 해서 Microsoft에서 만든 캐릭터 셋)
그러나 EUC-KR 방식은 전체 한글 11,172자 중 2,350자만 표현가능하므로 한글 뿐 아니라 다양한 국가의 문자를 동시에 처리하기 위해선 "UTF-8"로 캐릭터 셋 변환이 필요하다. 물론 UTF-8 방식은 세계화 추세이기도 하다.

그래서 개발자들이 공공쪽 대외기관 연계시 티맥스 아답터 또는 DB 아답터 등 연계 모듈을 작성시 깨지는 부분에 대해 처리 할 수 있는 방안이 없는 문제가 있다. 그렇다고 "MS-949"를 "UTF-8"로 바꿔달라고 요청할 수 없는 문제가 있다. 이전에 기관연계를 클라이언트 프로그램을 캐릭터 셋 인코딩 개발을 다시 해야 하기 때문이다. 물론 변경 코드는 1~2줄이면 가능하다 실시간 연계 시스템이 많다 보니 수백개의 업무를 정지 후 수정 다시 올려야 하는 비용적인 처리 문제가 크다보니...

아래는 공공기관의 캐릭터 셋을 UTF-8로 변환시킨다는 뉴스 내용이다.

"공공정보시스템, 이젠 모든 한글 표현"
앞으로 전자민원 처리시 `?`나 `□'로 표시되는 글자가 사라질 전망이다. 또 `？', `？'같은 글자를 인터넷 게시판에 쓰면 글자가 깨져서 나오는 문제도 해결된다.

행정안전부는 인터넷 민원처리 등 전자정부 서비스가 모든 한글을 표현할 수 있도록 `공공 정보시스템 한글 처리 가이드라인'을 확정하고 주요 정부 시스템에 적용한다고 28일 밝혔다.

대부분의 국내 정보시스템은 한글 처리를 위해 1987년도에 정해진 KS표준을 따르는 `EUC-KR' 인코딩 방식을 사용해 왔다. 그러나 EUC-KR 방식은 초ㆍ중ㆍ종성의 조합으로 가능한 모든 현대 한글 1만1172자 중 2350자만 표현하기 때문에 나머지 8822자에 속한 글자를 처리하지 못하는 문제가 있었다.

특히 공공기관의 웹사이트는 90% 이상이 EUC-KR 방식을 사용하고 있어 주소, 상호, 상품명, 귀화자 성명 등 고유명사에 `？' 과 같은 2350자 이외의 글자가 쓰이는 경우, 관련 행정업무의 전자적 처리에 많은 불편이 발생했다.

행안부는 앞으로 구축되는 공공 정보시스템은 모든 한글을 표현할 수 있고 다국어 처리가 가능한 `UTF-8' 인코딩 방식을 사용할 방침이다. UTF-8 방식은 국제 표준인 유니코드를 사용해 한글 1만1172자를 모두 표시할 수 있고 일본어, 중국어 등 모든 언어의 문자를 처리할 수 있기 때문에 서비스의 글로벌화에도 유리하다고 행안부는 설명했다.

현재 트위터나 페이스북 등 유명 글로벌 서비스는 모두 UTF-8 방식을 사용하고 있으며 국내 주요 포털도 UTF-8 방식 전환을 추진하는 등 국내외에서 급속히 확산되는 추세이다.
"디지털 타임즈"

Sanggu's blog

최상단 광고 코드

2011년 10월 1일 토요일

한글 인코딩 깨짐 현상 - 기관연계 프로그램

댓글 없음:

댓글 쓰기