> 사이트 데이터웨어 하우스, 데이터웨어 하우스 소스 데이터 형식

데이터웨어 하우스의 소스 데이터 형식

joegh 의한 2010년 7월 20일 메시지»

dw-source-data 통합 기업은 물론 포함하여, 데이터 분석 및 의사 결정 지원을위한 거의 모든 데이터웨어 하우스에있는 데이터를 얻을 수 있는 모든 데이터를 제가 언급 에 웹 분석 데이터 원본 . 데이터웨어 하우스로 이러한 데이터는 이하의 세 가지 유형의 아무것도 아니다 : 데이터웨어 하우스에 저장된 어떤 양식으로 통일 변환 후 구조화된 데이터, 반 구조화된 데이터와 구조화되지 않은 데이터는 일반적으로 ETL 말했다되는 (추출 변환,로드, 추출, 변환,로드) 프로세스. 다음은 주로 원본 데이터 및 사이트 데이터의 분석에 이러한 데이터를 포함하는 각각이 세 종류의 데이터의 차이에 대해 이야기합니다.

구조화된 데이터

이러한 데이터 형식은 표준화되어 있으며, 관계형 데이터베이스에있는 데이터의 전형적인 대표가이 데이터를 2 차원 테이블 필드의 고정된 번호를 저장하는 데 사용할 수있는 각 필드는 (숫자, 문자, 날짜 고정 데이터 유형이 ), 각 필드의 바이트 단위 길이도 상대적으로 고정됩니다. 이러한 데이터는 쿼리, 디스플레이 및 분석 데이터 형식을위한 가장 편리한 동시에, 관리 및 유지 관리가 가장 쉽습니다.

사이트의 구조화된 데이터는 일반적으로뿐만 아니라 외부의 오픈베이스 인터페이스에서 얻어진 데이터의 일부로 데이터베이스 데이터 내의 사이트를 말합니다. 내보낼 SQL 문을 쿼리가 요구하는대로 이러한 데이터 통합​​ 관리, 사이트 분석 및 데이터 분석을위한 데이터웨어 하우스에 ETL로 가져올 수 있습니다.

구조화된 데이터가 사이트 데이터 분석의 중추적인 위치를 차지하고, 데이터베이스에 저장된 데이터는 일반적으로 사이트의 등록된 사용자의 수가 같은 사이트와 사용자의 작업 결과 데이터 (결과)의 운영 데이터, 위치, 블로그 기사의 수를 코멘트 ... 전자 상거래 사이트, 주문 및 직접 저장 및 데이터베이스에 대한 판매 데이터에 대한 이러한 데이터를 바탕은, 이익 및 기타 KPI를 만들 각 사용자에 대해 주문 평균 수익 당 총 이익을 계산 데이터가 달성되고있는 사이트의 목적의 직접적인 분석이 될 수 있습니다.

세미 구조화된 데이터

세미 구조화된 데이터 형식 사양은 일반적으로 일반 텍스트 데이터를, 당신이 어떤 방법으로 데이터의 각를 해결할 수 있습니다. 가장 흔한은, XML 로그 데이터이며, JSON은 데이터 형식, 그들은 각 레코드는 미리 정의된 사양이 될 수 있지만, 각 레코드에 포함된 정보는 다를 수 있으며, 다양한 포함한 분야의 서로 다른 번호를 가지고 있습니다 필드 이름 또는 필드 타입, 또는 중첩 형식이 포함되어 있습니다. 이러한 데이터는 일반적으로 일반 텍스트 출력, 관리 및 유지 보수도 더 편리하지만, 이러한 데이터의 액세스, 쿼리 또는 분석이 이러한 데이터 형식 대응하는 분석을 할 수 있습니다 이러한 데이터를 사용해야합니다.

세미 구조화된 데이터는 일반적으로 로그 데이터의 사이트이거나 때문에 XML이나 JSON 형식의 데이터 출력을위한 수요. 해당 값을 재생하기 위해 미리 정의된 필드에 따라 아파치 로그의 가장 일반적인 사이트 :

72.14.192.1 - [09/May/2010 : 3시 35분 2초 0800] 200 13,726 "HTTP/1.1 / GET" "-" "Mozilla/5.0는 (매킨토시, U, PPC 맥 OS X, EN-US) , gzip을 (GFE) (translate.google.com 경유) "

동안 출력 데이터의 키 (키 / 값) 형식으로 JSON 형식 :

{시간 : 1234567890, 행동 : "코멘트"는 반응 : 사실, 사용자 : {사용자 ID : 1, 사용자 이름 : "ABC"}}

아파치 로그 데이터, 우리는 같은 유용한 데이터를 분리하고 데이터웨어 하우스, XML과 JSON 형식의 데이터로 가져올 필요가자를 수있다, 우리는 모든 종류의 문자열 해석 자신의 레이블 또는 이름을 통해 호출할 수 있습니다 얻기 위해 레이어를 탐색하여 중첩된 구조의 계층에 해당하는 값을 얻기도 유용한 데이터의 분석을위한 데이터웨어 하우스를 선택합니다. 이 과정에서 ETL의 일부 변환 때문에 형식 구문 분석을 위해,이 단계가 바로 ETL 안정성과 견고 영향을 줄 필요성을보다 복잡하게됩니다. 이 성가신 문제가 데이터 및 스토리지 문제의 형식이며, 사용자 정의 필드 유형을 만들 필요가있을 수도 있습니다, 또는 NOSQL 데이터베이스를 선택하고, NOSQL 데이터베이스에 대한 논의가 한창 진행 중이다 있었는데, 구글 빅 테이블, 아마존 디나모부터 페이스 북 카산드라, NOSQL 데이터베이스, 확장성, 대용량 데이터 저장은 웹 데이터 관리를위한 새로운 솔루션을 제공합니다.

세미 구조화된 데이터는 또한 사이트 데이터, 사이트 클릭 스트림 로그와 사용자 행동 데이터의 분석에 매우 중요한 것은 반 구조화된 데이터 출력의 형태로 일반적으로있을 때 우리가 통계 웹사이트 분석이나 사용자의 행동을해야 지표의 다양한 유형 분석은 그러한 데이터가 필수적입니다.

구조화되지 않은 데이터

구조화되지 않은 데이터가 아닌 일반 텍스트 데이터의 클래스를 말합니다, 표준 형식이없는 직접 해당 값을 확인할 수 없습니다. 일반적인 비정형 데이터에 서식있는 텍스트 문서, 웹 페이지, 멀티미디어 (이미지, 사운드, 비디오 등). 직접 쿼리 및 분석 아니라 이러한 데이터를 수집하기 쉽지 않다 관리하므로 이러한 종류의 데이터는 서로 다른 접근 방법을 사용할 필요가 있습니다.

서식있는 텍스트, 이미지, 사운드, 비디오 및 기타 정보는 않는 고급 텍스트 마이닝, 멀티미디어 데이터 마이닝에 대한 필요성은 매일 데이터 통계 및 구조화되지 않은 데이터 자체의 분석에 관여에 대한 여부 것은 가치에 대한 분석을하지 않습니다. 그것은 직접적으로 데이터웨어 하우스, 데이터웨어 하우스의 아버지로 바이너리 형태로 일반적으로 비정형 데이터가 아니에요 - Inmon의 제안은 단지 데이터웨어 하우스 메타 데이터 (메타 데이터)에서 구조화되지 않은 데이터를 저장해야되고, 아니면 말했다 데이터를 설명합니다. 이렇게 빨리 색인 및 필요한 데이터를 찾기 위해 데이터웨어 하우스 데이터에 기록 파일 시스템 (파일 시스템)에 저장된 우리 일반적으로 구조화되지 않은 데이터입니다. Word 문서 제목, 초록, 저자, 생성 시간, 마지막으로 수정된 시간, 등 사진 등은 또한 픽셀 해상도를 포함할 수 있습니다. 당신이 세부 사항 탭 아래에 표시되는 이러한 데이터 항목과 마찬가지로, 기록의 표준 양식에 그 이상의 파일 특성 이러한 비정형 데이터를 마우스 오른쪽 단추로 클릭하고 신속하게 대응하는 비정형 데이터에 대한 쿼리를 검색하는 데 도움이 같은 통계 및 분석을 위해 사용할 수있는 사실은, 데이터웨어 하우스로 분류 비정형 데이터의 각, 그리고 레이블 정보 기록을 제공하는 것입니다.

대부분의 사이트에 대해, 비정형 데이터의이 유형 그것이 시간 효과 대부분의 데이터 고급 데이터 마이닝, 통계 분석에 사용되는 수있다 않는 것은 큰 것이 아니라, 그러한 사진, 비디오 클래스와 같은 특정 사이트에 대해 사이트는 데이터가 중요합니다. 사진, 동영상 사이트, 사진 및 동영상 사이트의 제품으로, 기록된 사진 영상 메타 데이터는 이러한 제품, 제품 분석, 제품 세그먼트와 이러한 데이터에 상당히 의존에 대한 자세한 정보와 데이터이며 마찬가지로, 일부 회사의 내부 문서, 데이터, 이러한 파일의 정보를 기록하기위한 통합 데이터웨어 하우스의 아카이브, 당신은 신속하게 필요한 파일을 필요한 경우를 찾아 검색할 정보의 통합 및 통합 관리를위한 매우 효과가 있습니다.

인터넷의 지속적인 개발을 통해 정보를 모든 종류의 확장을 계속하고, 거기에 데이터 유형의 다양한 있습니다 등장할 계속되며, 데이터웨어 하우스는 데이터의 모든 유형에 대한 데이터 통합​​, 처리 및 관리의 역할을하고 또한 지속적으로 향상됩니다 최적화.


»이 종이에는 BY-NC-SA의 복제 계약을 입력해주십시오 출처 : 웹사이트 데이터 분석 » "데이터웨어 하우스 데이터 형식의 소스"

관련 기사 :

  1. 데이터웨어 하우스 메타 데이터 관리
  2. 데이터웨어 하우스의 기본 구조
  3. 데이터웨어 하우스의 가치
  4. 데이터 큐브와 OLAP
  5. OLAP의 기본적인 특성
  1. Aibei Fu는 말했다 :

    상위 와우 데이터웨어 하우스. . . .

    대답 대답
  2. bookcold는 말했다 :

    NoSQL에 언급, 사실 나도 그래, 비 관계형 데이터베이스의 운용성에 창고를 건설, 또한 호기심 오전

    대답 대답
  3. joegh는 말했다 :

    _AT_ bookcold : 전통적인 데이터베이스의 차원 테이블에이 모델의 한계, 당신은 구조화된 데이터의 다양한 저장할 수 비약의 NoSQL 장점, 멀티 - 노드 병렬 처리 데이터 컴퓨팅의 능력을 향상시킬 수 있도록 지원합니다. 그것이 NoSQL와 접촉하지 않았기 때문에, 그래서 결국에는 데이터웨어 하우스에 적용되지 않습니다 말할 아니지만, 그것은 어느 정도 서로 다른 기본 데이터 구조에 이러한 성가신 문제가 될 수 있습니다.

    대답 대답
  4. 나는 말했다 여름과 가을 :

    데이터 마이닝의 블로거를 몰라, 연구 및 사이트 분석 및 데이터 마이닝 사이에는 관계가 없다. 그래, 나는 웹 데이터 마이닝 발견 "클릭 - 스트림 데이터웨어 하우스 '추천 - 고객 가치로 고객 데이터"는 아주 좋은 것입니다.

    대답 대답

코멘트를 남겨주세요