본문 바로가기

Data Analysis '◡'✿/삼성SDS Brightics AI & Studio

[Brightics 서포터즈] 나홀로 분석 프로젝트 (3) 산업군 트렌드 분석 (+시각화)

 

 

 

 

 

 

안녕하세요, Soa입니다!

٩( ᐛ )و

 

 

 

 

 

다시 돌아온 외로운,, 나 홀로 분석 시간,,,,,

 

 

 

저번 포스팅에서는 왜 이 주제를 선정했는지,

어떤 데이터를 통해서, 어떤 분석을 진행하고자 하는지 등에 대해서 이야기했는데요~

 

 

저번 포스팅 마지막에서 말했던 것처럼, 오늘 포스팅에서는 본격적으로 분석 프로젝트를 시작합니다!

 

 

 

 


 

 

 

 

나홀로 분석 프로젝트 (3) 산업군 트렌드 분석

 

 

 

 

 

이번 포스팅에서는 산업군 트렌드 분석을 진행하고자 합니다!

 

 

 

 

그렇다면 Brightics가 속한 산업군은 무엇일까요?!

바로, 데이터 산업이죠!

 

 

 

제가 이번 분석에 사용하고자 하는 통계 자료의 출처인, 과학기술정보통신부에서 데이터 산업을 다음과 같이 정의했습니다.

 

'데이터의 생산, 수집, 처리, 분석, 유통, 활용 등을 통해 가치를 창출하는 상품과 서비스를 생산·제공하는 산업'

 

 

 

그리고 데이터 산업군을 크게 다음처럼, 세 가지로 나눴습니다.

 

1. 데이터 솔루션

'DBMS, 데이터 모델링, 데이터 분석/시각화, 검색엔진, 데이터 품질 등 관련 솔루션 제품으로 비즈니스를 영위하는 사업체'

 

2. 데이터 구축/컨설팅

'데이터 이행, 데이터웨어하우스, 데이터 레이크 등을 포함해 문서/음성/영상 등을 데이터로 변환/정비하는 데이터 구축과 데이터 관련 SI, 데이터 거버넌스, 데이터 품질 및 설계, 데이터 분석 활용 등 데이터 관련 기획 및 컨설팅 비즈니스를 영위하는 사업체'

 

3. 데이터 서비스

'데이터를 판매하고 데이터를 활용해 정보제공, 데이터 거래, 분석 결과 정보 등을 온오프라인으로 제공하면서 데이터 이용료/수수료 또는 광고료 등으로 비즈니스를 영위하거나 마케팅을 목적으로 데이터를 수집 가공하여 판매하는 사업체'

 

 

 

Brightics는

데이터 수집/전처리부터 정형/비정형 데이터 분석, 데이터 시각화 및 배포/운영까지 AI MLOps를 제공하는 플랫폼이죠!

 

그래서 저 세 가지 중에서 첫 번째인 데이터 솔루션 사업체에 속한다고 볼 수 있겠습니다!

 

 

 

 

 

 

 


 

 

 

[데이터 확보]

 

 

 

데이터 산업 시장 규모에 대해서 알아보기 위해, KOSIS에서 데이터를 확보하겠습니다.

 

 

KOSIS 국가통계포털

통계목록검색 통계목록검색 통계목록검색 통계표명검색 검색어입력 검색 전체목록받기 부분목록받기 처리중입니다. 잠시만 기다려 주세요.

kosis.kr

 

 

 

 

해당 링크에 접속해서 '정보통신/과학·기술'-'데이터 산업 현황조사'를 선택하면,

 

 

 

 

 

이렇게 다양한 시장규모에 대한 통계 데이터가 존재합니다.

 

 

 

 

 

 

우선 제가 수집한 통계 데이터들은 다음과 같습니다. 

데이터 산업 시장 규모 총괄, 데이터 산업 시장 전망, 데이터 솔루션 시장 규모, 데이터솔루션 시장점유율, 데이터 산업 직접매출 시장규모, 데이터 솔루션 업종별 매출 비중, 데이터 솔루션 영역별 직접매출 시장 규모, 데이터 관련 사업 주요 고객

 

 

 

 

잠깐, 저기서 직접매출의 의미는

데이터 관련 상품(솔루션, 컨설팅, 서비스 등)을 판매하여 얻은 수익이며,

반대로 광고 등으로 얻은 수익은 간접매출이라고 할 수 있습니다.

 

 

 

 

 

 

 

이렇게 원하는 통계를 선택한 후, 다운로드를 클릭해서 CSV의 파일 형태로 다운로드하면 됩니다.

 

 

[사용한 통계 데이터 전체 압축본]

데이터산업_관련_통계_모음.zip
0.00MB

 

 

 

 


 

 

[통계 데이터 1차 필터링]

 

 

위에서 제가 사용하겠다고 말했던 통계 데이터들은

많은 통계들 중에서도 제목만 보고 우선적으로 다운로드한 데이터들입니다.

 

실제로 저 데이터가 분석에서 쓸모 있느냐는 다른 문제죠.

 

 

그래서 한번 데이터를 미리보기 해서 사용할만한 데이터인지 살펴봤습니다!

 

 

 

첫 번째로, 살펴보니 다운로드한 데이터들 중에 '데이터 솔루션 시장 점유율'의 통계가 조금 부적절했습니다.

 

 

 

 

잘 보면 분류 중에 '데이터 플랫폼'이 없는데, Brightics는 데이터 플랫폼에 속하기 때문에

시각화 혹은 사용할 필요가 없는 데이터라고 판단했습니다.

 

 

 

 

두 번째로는, '데이터 솔루션 시장 규모'와 '데이터 솔루션 영역별 직접매출 시장 규모'가 이어지는 통계량이었습니다!

 

데이터 솔루션 시장 규모는 2017년부터 2019년까지 영역별 시장 규모를 나타내고

데이터 솔루션 영역별 직접매출 시장 규모는 2015년부터 2017년까지의 영역별 시장 규모를 나타내고 있습니다.

 

이름과 시기만 다를 뿐 이어지는 통계 데이터였기 때문에, 이를 통합하고 다듬는 과정 또한 추가하려고 합니다.

 

 

 

 

세 번째로, '데이터 산업 직접매출 시장 규모'가 '데이터 산업 시장 규모 총괄'과 비교했을 때

데이터 서비스 분야에 대해서만 차이가 있었습니다.

 

데이터 서비스 분야에서는 간접 매출의 영양도 있기 때문에, 직접매출 시장 규모 통계와는 조금 다른 점이 있었습니다.

 

하지만, 데이터 솔루션 시장에서는 차이점이 없었기 때문에

'데이터 솔루션 시장 규모'와 차이점이 없거나 더 낫기 때문에 이 데이터는 삭제하기로 했습니다.

 

 

 

그 외에 다른 데이터에서는 특별히 문제점이 없었습니다!

 

 

 

 

 


 

 

[시각화 작업]

 

 

 

우선, 통계 데이터들을 업로드하기 위해서 파일명을 모두 영어로 바꿔보았습니다!

 

데이터산업통계_ver.English.zip
0.00MB

 

 

 

이렇게 바꾼 데이터들을 업로드하기 이전에, 어떻게 사용할 것인지에 대해서 한번 정리하겠습니다.

 

 

 

 


 

 

(1) 데이터 정리

 

 

 

 

1. Overall_Data_Industry_Market_Size

 

2017년부터 2019년까지의 데이터이며, 2019년도 데이터는 잠정치입니다.

데이터 솔루션, 컨설팅, 서비스 분야 각각에 대한 시장 규모를 억 원의 단위로 나타내었습니다.

 

이 데이터에 대해서는 데이터 산업 시장과 데이터 솔루션 시장의 성장 추이를 보기 위해 사용할 예정입니다.

 

 

 

 

2.Data_Solution_Market_Size & 2-1.Direct_Sales_Market_Size_by_Data_Solution_Area

 

2015년부터 2019년도까지의 데이터 솔루션 시장의 영역별 시장 규모 데이터입니다.

2019년 데이터는 잠정치이며, 위와 동일하게 억 원의 단위로 기록되었습니다.

 

이 데이터는 하나의 데이터로 만들어서 데이터 솔루션 사업 내에서 데이터 플랫폼 부문이 어느 정도의 규모를 차지하고 있는지에 대해서 살펴보고자 합니다.

 

 

 

 

3.Sales_Share_by_Data_Solution_Industry

 

이 데이터는 2016년부터 2017년까지 데이터 솔루션 사업에서 분야별 매출 비중입니다.

2017년은 잠정치이고, 어떤 분야에서 데이터 솔루션 사업 매출이 발생했으며 비중은 어떠한지 나타냅니다.

퍼센트(%)로 비중을 보여주기 때문에, 다양한 분야에서 많이 쓰이고 있음을 보여주기 위해 사용하고자 합니다.

 

 

 

4.Data-related_Business_Major_Customer

 

2017년도, 데이터 관련 사업에서 고객들의 유형을 정리한 통계 데이터입니다.

개인, 기업, 정부/공공기관, 기타, 무응답, 해외로 나뉩니다.

이 데이터를 통해서 개인 고객의 비중을 중요하게 다루고자 합니다.

 

 

 

5.Data_Industry_Market_Forecast

 

2019년도부터 2025년까지 데이터 산업 시장 전망 데이터입니다.

2019년도는 잠정치, 이외의 모든 데이터는 추정치입니다.

이 데이터를 통해서 데이터 산업이 얼마나 성장 가능성이 높은지에 대해서 보여줄 생각입니다.

 

 

 

 

 

 

 

 

 


 

 

 

 

끄읏-!

 

 

다음 포스팅에서는 모델링과 시각화 작업에 대해서 포스팅하겠습니다!

 

안뇽!

٩( ᐛ )و

 

 

 

 

* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다. *

반응형