ADsP

[ADsP] 요약노트 1 과목 - 데이터 이해

Kim J 2024. 4. 1. 11:16

1. 데이터 이해

- 데이터와 정보

> 데이터

  • 데이터 : 추론과 추정의 근거를 이루는 사실, 다른 객체와 상호관계 속에서 가치를 갖는 것, 있는 그대로의 객관적 사실, 가공되지 않은 상태
  • 정보 : 데이터로부터 가공된 자료

> 데이터의 특성

  • 존재적 특성 : 객관적 사실
  • 당위적 특성 : 추론 예측 전망 추정을 위한 근거

> 데이터의 유형

(1) 정성적, 정량적

  • 정석적 데이터 : 자료의 특징을 풀어서 설명 - 언어, 문자 등 ( 기상특보, 주관식 설문응답 ) 많은 비용
  • 정량적 데이터 : 자료를 수치화 함 - 수치, 기호 등 ( 온도, 풍속, 나이 ) 적은 비용

(2) 정형, 반정형, 비정형

  • 정형 데이터 : 정보의 형태가 정해짐 ( 관계형 DB, 엑셀 - 스프레드시트, CSV 등 )
  • 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함 파일 형태로 저장 ( 로그, HTML, XML, JSON 등 )
  • 비정형 데이터 : 데이터 형태가 정해지지 않아 분석통계 어려움 ( SNS 게시글, 유튜브, 음원 등 )

> 지식경영의 핵심 이슈 ( 암묵지, 형식지 간 상호작용 )

  • 암묵지 : 개인에게 슥듭되고 겉으로 들어나지 않음 - 전달 / 공유가 어렵다
  • 형식지 : 문서, 내뉴얼 등 형상화 된 지식 - 전달 / 공유가 쉽다.

1) 공통화 : 암묵지의 지식을 다른 사람에게 알려줌 ( 백종원이 말로 직원에게 음식의 노하우 전수 )

2) 표출화 : 암묵지의 지식을 매뉴얼이나 문서로 전환 ( 직원이 그 레시피를 블로그에 올림 꿀팁 공유 )

3) 연결화 : 교재, 매뉴얼에 새로운 지식 추가 ( 설탕 한스푼 > 설탕 50g 또는 올리고당 10g 이런건가 )

4) 내면화 : 만들어진 교재, 매뉴얼을 통해 암묵지를 터득 ( 블로그 백종원 레시피 보고 만들어 봤어요~ ! )

지식경영의 핵심이슈 : 공표연내

> DIKW 피라미드

(1) 데이터 ( Data ) : 있는 그대로의 객관적 사실 ( A 마트 100원, B 마트 200원 )

(2) 정보 ( Information ) : Data를 통해 패턴 인식 ( A 마트가 더 싸군 )

(3) 지식 ( Knowledge ) : 패턴을 통해 예측 ( A 마트에서 사면 개꿀이군 )

(4) 지혜 ( Wisdom ) : 창의적 산물 ( A 마트가 다른 물건도 더 싸지 않을까 ? )

- 데이터 베이스의 정의와 특징

> 데이터 베이스 정의

(1) DB : 일정 구조에 맞게 조직화 된 데이터의 집합

  • 스키마 : DB의 구조과 제약조건에 관한 전반적 명세
  • 인스턴스 : 정의된 스키마에 따라 저장된 값

(2) DBMS : DB를 관리, 접근 환경을 제공하는 소프트웨어

1) 관계형 DBMS : 테이블(표)로 정리 ( Oracle, MySQL, Maria DB )

2) 객체지향 DBMS : 정보를 객체형태로 정리

3) NoSQL DBMS : 비정형 데이터를 저장하고처리 ( Mongo DB )

(3) SQL : 데이터 베이스에 접근할 수 있는 하부 언어

  • 정의언어 ( DDL ) : CREAT, ALTER, DROP 등
  • 조작언어 ( DML ) : SELECT, INSERT, DELETE, UPDATE 등
  • 제어언어 ( DCL ) : COMMIT, ROLLBACK, GRANT 등

>> 정형 데이터 관리 개념에서 빅데이터 출현으로 비정형 데이터까지 포함하는 개념 확대

> 데이터베이스의 특징

(1) 용 데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용

(2) 합된 데이터 : 동일한 데이터 중복되어 있지 않음

(3) 장된 데이터 : 저장 매체에 저장

(4) 화되는 데이터 : 새로운 데이터의 삽입, 삭제, 갱신에도 현재의 정확한 데이터는 유지

데이터베이스의 특징 : 공통저변

> 데이터베이스 구성요소

  • 메타데이터 : 데이터를 설명하는 데이터
  • 인덱스 : 정렬, 탐색을 위한 데이터 이름 ( 빠르게 찾을 수 있음 )

> 데이터베이스 설계 절차

(1) 요구조건 분석

(2) 개념적 설계

(3) 논리적 설계

(4) 물리적 설계

데이터베이스 설계 절차 : 개논물

- 데이터 베이스 활용

> 기업 내부 데이터베이스

  • OTLP : 데이터를 수시로 갱신 ( 거래단위 / 바로 처리결과 리턴 )
  • OLAP : 다차원 데이터를 대화식으로 분석

OTLP : 데이터 갱신 위주 <> OLAP : 데이터 조회 위주

  • CRM : 고객(Customer)과 관련된 자료 분석, 마케팅 활용
  • SCM : 공급망(Supply Chain) 연결 최적화
  • ERP : 전사적 자원 관리, 기업 경영 자원을 효율화
  • BI : 기업 의사결정에 활용하는 일련의 프로세스 데이터를 정리, 분석하여 리포트 중심
  • Block Chain : 네트워크에 참여한 모든 사용자가 정보를 분산, 저장
  • KMS : 기업의 모든 지식을 포함 기업 경영을 지식의 관점으로

> 데이터웨어하우스

  • 주제지향성 : 분석목적 설정이 중요
  • 데이터 통합 : 일관화 된 형식으로 작성
  • 시계열성 : 히스토리를 가진 데이터
  • 비휘발성 : 읽기전용 - 수시로 변하지 않음

2. 데이터의 가치와 미래

- 빅데이터의 이해

> 빅데이터 출현 배경

  • 인터넷 확산
  • 스마트폰 보급
  • 클라우딩 컴퓨팅으로 인한 경제성 확보
  • 저장매체 가격 하락
  • 하둡을 활용한 분산 컴퓨팅
  • 비정형 데이터 확산

> 빅데이터의 3V ( 가트너 정의 )

(1) Volum ( 규모 ) : 데이터의 양 증가

(2) Variety ( 다양성 ) : 데이터의 유형 증가

(3) Velocity ( 속도 ) : 데이터 생성, 처리 속도 증가

(4) 그 외 V4에 포함되는 요소

  • Value ( 가치 )
  • Veracity ( 정확성 )
  • Visualization ( 시각화 )

> 빅데이터의 기대에 대한 비유

(1) 산업혁명의 석탄, 철 : 산업혁명에서의 석탄, 철의 역할

(2) 원유 : 정보 제공으로 생산성 향상

(3) 렌즈 : 현미경이 생물학 발전에 미친 영향, 산업 전반에 영향 ( 구글 Ngram Viewer )

(4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비즈니스에 활용

* 써드파티 : 원천 기술을 활용한 파생 상품을 만드는 회사 - 써드파티 나오면 플랫폼

> 빅데이터가 만들어내는 변화

(1) 표본조사 > 전수조사

(2) 사전처리 > 사후처리

(3) 질 >

(4) 인과관계 > 상관관계

빅데이터가 만들어내는 변화 : 전후양상

- 빅데이터의 가치와 영향

> 빅데이터 가치 산정이 어려운 이유

(1) 특정 데이터를 언제, 어디서, 누가 활용할지 알 수 없음

(2) 기존 가치 없던 데이터도 새로운 분석기법을 활용해 가치를 창출 가능함

- 비즈니스 모델

> 빅데이터 활용을 위한 3대 요소

  • 인력, 자원, 기술

빅데이터 활용을 위한 3대 요소 : 인자기

> 빅데이터 기본 테크닉

  • 회귀분석 : 독립변수종속변수 관계, A요소가 B에 어떤 영향을 미치는가 ? ( 리뷰를 잘 쓴 사람이 다시 배달을 시킬 확률이 높은가 ? )
  • 유형분석 : A와 B는 어디에도 속하는 범주
  • 연관규칙 : 여러 요소들 간의 규칙 상관관계 존재
  • 유전자 알고리즘 : 최적화 필요한 문제 해결책

( 택배차량을 어떻게 배치 할거냐, 시청률을 위한 프로그램의 방송 시간대 언제로 할래 )

  • 기계학습 : 훈련 데이터로 컴퓨터가 학습하고 미래를 예측
  • 감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로 원하는 것을 발견)
  • 소셜 네트워크 분석 : 사람들의 관계

( SNS 상 사용자들의 팔로워, 팔로잉 관계를 통해 영향력이 큰사람 찾기 )

- 위기 요인과 통제 방안

> 위기 요인과 통제 방안

(1) 사생활 침해 : SNS에 올린 데이터로 인한 사생활 침해가 발생 > 익명화 기술발전 필요

> '개인정보 제공자의 동의' 에서 '개인정보 사용자의 책임' 으로 전환

(2) 책임 원칙 훼손 : 잠재적 위험 사항에 대해 책임을 추궁하는 사회로 변질 가능성

> 결과 기반 책임 원칙 고수

(3) 데이터 오용 : 분석 결과가 항상 옳은 것은 아님

> 알고리즈미스트(불이익을 당한 사람들을 대변할 전문가) 필요하게 됨

> 개인정보 비식별화

(1) 데이터 마스킹 : 박서준 > 박XX

(2) 가명처리 : 박서준 > 박명수

(3) 총계처리 : 전체 의 평균으로 처리

(4) 범주화 : 박서준 35세 > 박씨 30대

3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

- 빅데이터 분석과 전략 인사이트

> 전략적 인사이트

  • 선택과 집중 ( 많은 데이터나 다양한 대상을 향한 분산 보다는 현재 분석에 집중 )
  • 업계 상황 외 더 넓은 시야에서 봐야함
  • 경영진에게 전략적 인사이트 기여

조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결 할 때는 선택과 집중

사업 상황들을 확인할 때는 더 넓은 시야

> 데이터 사이언스

  • 데이터와 관련된 모든 분야의 전문지식을 종합한 학문
  • 정형/비정형 데이터를 막론하고 데이터를 분석 - 총체적 접근법
  • 데이터로부터 의미있는 정보를 추출하는 학문

> 데이터 사이언스 핵심 구성요소

(1) Analytics : 이론적 지식

(2) IT : 프로그래밍적 지식

(3) 비즈니스 분석 : 비즈니즈적 능력

데이터 사이언스 핵심 구성요소 : AIB

- 전략 인사이트 도출을 위한 필요 역량

> 데이터 사이언티스트의 요구 역량

(1) 하드 스킬 ( Hard Skill ) - 이과적 : 빅데이터에 대한 이론적 지식 ( 수학, 통계학, 가설검정 등 )

(2) 소프트 스킬 ( Soft Skill ) - 문과적 : 스토리텔링, 리더십, 창의력, 분석 등

* 가트너가 제시한 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬

!! 가트너가 제시한 역량에 하드 스킬은 없다 !!

- 빅데이터 그리고 데이터 사이언스의 미래

> 빅데이터 가치 패러다임 변화

Digitaliztion > Connection > Agency

(1) Digitaliztion : 아날로그 세상을 디지털화

(2) Connection : 디지털화 된 정보들을 연결

(3) Agency : 연결을 효과적으로 관리

빅데이터 가치 패러다임 변화 : Digital C A 메라 (디지털 카 메라)

> 기타 용어 정리

  • 데이터레이크 : 원시 데이터셋을 기본형식으로 저장
  • 서비타이제이션(Servitization) : 제품과 서비스의 결합
  • 딥러닝 : 인공신경망을 사용하여 머신러닝을 학습
  • 마이데이터 : 기업, 기관에 흩어져 있는 신용정보를 사업자가 활용하여 유용한 서비스 제공
  • ETL(Extraction, Transformation, Load) : 추출, 변형, 적재 (DW, DM에 저장하는 도구)
  • 하둡 : 적당한 성능의 컴퓨터로 병렬처리

1) HDFS : 네트워크에 연결 된 데이터를 저장하는 분산형 파일 시스템

2) MapReduce : 분산된 데이터를 병렬로 분석

'ADsP' 카테고리의 다른 글

[ADsP] 요약노트 2 과목 - 데이터분석 기획  (0) 2024.04.01