본문 바로가기

Data Analysis '◡'✿/삼성SDS Brightics AI & Studio

[Brightics 서포터즈] 나홀로 분석 프로젝트 (4) 산업군 트렌드 분석, 두번째 (+시각화)

 

 

 

 

 

 

안녕하세요, Soa입니다!

٩( ᐛ )و

 

 

 

 

 

저번 포스팅에서는 본격적인 분석 및 시각화 작업 전에 간단하게 정리해보는 시간을 가졌습니다!

 

그래서 이번 포스팅에서는 간단한 분석 및 시각화를 해보고자 합니다!

갈길이 머니 빠르게 시작하겠습니다..!! (눈물)

 

 

 

 

 


 

 

나 홀로 분석 프로젝트 (4) 산업군 트렌드 분석, 두 번째

 

 

 

 

우선, Brightics Studio에 들어가 볼까요?

 

 

이전 포스팅을 하시면서 아마 새로운 프로젝트나 모델을 생성하는 건

쉽게 하실 수 있으실 거라고 믿습니다!

 

최근에 오류 때문에 스튜디오를 삭제했더니,, 이전 프로젝트가 보이지 않습니다,,,,

그래서,, 새로 만들었습니다... Soa의 프로젝트,,

 

 

 

 

 

이렇게 새로운 모델까지 생성해준 후에, 데이터 업로드부터 시작하겠습니다.

 

 

 

 

 


 

 

[함수 setting 및 데이터 업로드]

 

 

 

사실 이 과정을 진행하면서 살짝 난관에 부딪혔습니다..

제가 사용하려는 데이터가 한글로 되어있었기 때문이죠..

 

그래서 다른 서포터즈분들의 글을 참고하려 하였으나,, 커뮤니티가 막혀있었고,,

나굥이(같은 서포터즈)의 도움으로 이겨냈습니다....!

 

 

 

 

현명한 코리안걸.....따봉...

 

 

 

우선, 임시방편으로 Load 함수에 편하게 업로드하기 위해서

이전의 모든 데이터 파일들을 txt로 바꾸거나, 다시 다운로드했습니다!

 

 

 

*Brightics에서 한글 파일 사용 방법(txt 버전)*

 

인코딩을 변경해주면 되는데, 파일을 열어서 '다른 이름으로 저장'을 선택하고

 

 

여기에서 'UTF-8'변경해주면 됩니다!

 

 

 

 

그렇게 완성된 데이터..!!

 

 

 

그럼 이제 함수를 세팅해주겠습니다!

데이터 순서대로 다음과 같이 Load 함수들을 세팅했습니다.

 

 

 

데이터 업로드하는 과정은 이전과 동일하지만, 조금 다른 부분에 대해서 말씀드리겠습니다.

 

 

일단 어느 정도 데이터 가공이 필요한 부분이 보이긴 하지만,

Delimeter는 Tab으로 설정하면 됩니다.

 

 

 

그다음에는 이렇게 엉망이 되어버린 데이터를...

 

 

 

이렇게 조금 수정해주면 무사히 업로드를 할 수 있습니다!

 

여기서 주의할 점은 Column Name의 시작은 무조건 알파벳 이어야 한다는 사실!

 

 

 

여러 번의 시행착오를 거치고 데이터를 조금 더 가공해주면!

(위에서 업로드하고 나서도 몇 번 더 txt 파일에서 필요 없는 단어도 지웠습니다 ㅠ_ㅠ)

 

이렇게 나름 깔끔한 데이터 테이블이 탄생합니다!

 

두 번째 사진을 보면 "이 있긴 한데, 가공 과정에서 계속 오류가 생겨서

찜찜하긴 하지만 그냥 넣어서 진행하기로 했습니다...ㅠ

 

 

일단 모든 데이터가 로드되었습니다!

 

 

이제 나머지 함수들을 세팅해보도록 하겠습니다.

그다음에 필요한 함수는 Join입니다.

 

저번 포스팅에서 설명드렸다시피 2번과 2-1 데이터를 합쳐야 합니다.

 

 

 

 

[Join 함수 세팅 조건]

 

- Inputs : Left(Size by area), Right(Solution Market)

- Join Type : Inner

- Left Keys & Right Keys : 중분류 별, 영역별

- Left Suffix : _p

- Right Suffix : _real

 

 

 

 

입력은 연도가 이른 순서대로 하기 위해서, 2-1 데이터가 왼쪽이고 2번 데이터가 오른쪽입니다.

 

Inner 타입을 선택하지 않으면 중분류와 영역별 데이터가 다시 입력되므로 Inner 타입을 선택해야 합니다.

같은 이유로 Left와 Right Keys 모두 중분류 별과 영역별을 선택해주어야 합니다.

 

그런데 두 데이터를 합칠 때, 같은 이름의 데이터가 있기 때문에 Suffix를 설정해주지 않으면

자동으로 _left나 _right가 붙기 때문에 저렇게 더해지는 이름들을 미리 설정해줍니다.

삭제하는 방법을 찾아보려고 하였으나 실패해서.. 어차피 2017_p는 잠정치, 2017_real은 실제 수치이므로

나중에 시각화하는 과정에서 구분해서 삭제하는 것으로 하려고 합니다.

 

 

 


 

 

[시각화]

 

 

기본적인 세팅은 어느 정도 마무리했으니 차트를 작성해 시각화해보도록 하겠습니다.

 

 

 

 

1. 데이터 산업 시장 규모 총괄

 

가장 먼저 데이터 산업 시장 규모 총괄에 대해서 시각화하겠습니다.

 

 

첫 번째로 데이터 테이블을 출력하고, 나머지는 연도별로 각 분야별 비중을 Pie를 통해 나타냈습니다.

비중은 매년마다 늘어났지만 비율은 비슷한 것을 알 수 있습니다.

 

그런데 데이터 산업이 어떻게 성장하고 있는지 추이를 보고 싶은데

데이터가 저 상태(?)라서 어떻게 해도 안돼서 'Transpose'라는 함수를 이용했습니다.

 

 

 

함수 조건은 위처럼 세팅해주면 됩니다.

- Input Columns : Y2017, Y2018, Y2019

- Label Column : 데이터 산업별

 

 

이렇게 해주면 행과 열이 뒤바뀌게 됩니다!

이제 이걸 시각화해보도록 하겠습니다.

 

 

 

왼쪽은 데이터 테이블, 오른쪽은 Line chart 형식으로 데이터 산업 시장 규모 추이를 나타냈습니다.

 

아마 차트 형식만 바꾼다고 해서 위와 같이 시각화가 되지는 않을 겁니다.

Chart setting을 내가 원하는 대로 설정을 해주어야 합니다.

 

Data 관련 차트 세팅은 다음처럼 했습니다.

 

 

 

 

 

2. 데이터 솔루션 시장 규모

 

두 번째로 데이터 솔루션 시장 규모 데이터를 시각화하겠습니다.

 

저번에 설명한 것처럼 데이터 솔루션 분야에서 데이터 플랫폼이 차지하는 비율이 어느 정도인지를 나타내고,

추가적으로 데이터 플랫폼 시장의 추이에 대해서 살펴보도록 하겠습니다.

 

 

 

 

 

첫 번째는 해당 데이터의 데이터 테이블이며, 그다음은

2015년부터 2019년까지의 데이터 솔루션 시장에서 각 분야 별로 얼마 큼의 비중을 가지고 있는지를 나타냈습니다.

 

 

그다음에는 추이를 살펴보기 위해서 Statistic Summary 함수를 사용해보겠습니다.

세팅 조건은 다음과 같습니다.

 

 

- Input Columns : Y2015, Y2016, Y2017_real, Y2018, Y2019

- Target statistic : Sum

- Group By : 중분류 별

 

 

 

이렇게 선택해주게 되면 다음과 같은 차트를 생성할 수 있습니다.

 

 

위에 있는 데이터 수집을 비롯한 필요 없는 데이터들을 클릭해서 없애주었습니다!

 

 

 

 

 

 

3. 데이터 솔루션 업종별 매출 비중

 

 

이번에는 데이터 솔루션 사업이 각 분야별로 어떤 업종에서 쓰이는지에 대해서 보여주고자 합니다.

 

데이터 가공을 잘못하는 바람에 다시 한번 가공을 진행한 후에

전처리를 위해 'Delete Missing Data''Tranpose'를 추가했습니다....(눈물)

 

Delete Missing Data를 통해서 null 데이터를 삭제한 후에,

행과 열을 바꾸기 위해서 Tranpose를 사용한 데이터를 시각화한 결과는 다음과 같습니다.

 

 

데이터를 이해하기 쉽도록 sub title을 추가했고, 비교하기 쉽도록 연도별로 pie 차트를 개별적으로 작성했습니다.

T001부터 T006까지는 각각의 산업군을 뜻하며 sub title의 내용과 동일합니다.

 

 

 

 

 

4. 데이터 관련 사업 주요 고객

 

 

데이터 관련 사업에 대한 주요 고객들을

개인, 기업, 정부/공공기관, 기타, 무응답, 해외로 나누었습니다.

H01은 전체 기업 수, H02는 국내, H03은 해외, H04는 기타, H05는 무응답입니다.

 

무응답은 제외한 데이터에서 개인 고객 및 다른 종류의 고객들의 비중을 확인하고자 합니다.

 

 

 

데이터를 조금 더 가공해준 후, Tranpose 함수를 사용해서 행과 열을 바꿔 첫 번째 데이터 테이블처럼 만들었습니다.

 

 

 

이 데이터에서 알고 싶은 것은 데이터 관련 사업에서 어떤 고객들이 얼마 큼의 비중을 차지하고 있는지,

그리고 그중에서도 데이터 솔루션 사업에서는 어떤 고객들이 얼마큼의 비중을 차지하고 있는지이기 때문에

두 가지로 나눠서 Pie 차트를 생성했습니다.

 

 

 

 

 

5. 데이터 산업 시장 전망

 

 

2019년부터 2025년까지 데이터 산업 시장 전망에 대해서 시각화했습니다.

 

데이터는 다행히 멀쩡해서(?) Transpose 함수를 사용해서 행과 열을 또(?) 바꿔줬습니다.

 

Line 차트를 통해서 시각화해주었습니다.

 

 

 

 

 


 

 

시각화 끄읏-!

 

 

시행착오를 거쳐서 약간의 가공을 거친 데이터도 업로드하겠습니다!

데이터산업군_txt모음.zip
0.00MB

 

 

살짝 고난이 있었지만.. 다음 시각화는 괜찮은 거라고 믿으며...!

그럼 다음 포스팅에서 만나요!!

 

 

 

* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다. *

 

 

반응형