Empresas integradas podem obter quase todos os dados no armazém de dados para análise de dados e apoio à decisão, incluindo, naturalmente, todos os dados que eu mencionados nos dados de web analytics fontes . Estes dados para o data warehouse é nada menos que três tipos: dados estruturados, semi-estruturadas de dados e dados não estruturados, após a conversão unificados de alguma forma, armazenados em um data warehouse, que normalmente é dito ETL (Extract, Transform, Load, extrair, transformar, carregar) do processo. A seguir irá falar principalmente sobre a diferença entre estes três tipos de dados, respectivamente, incluindo os dados de origem e esses dados na análise de dados do site.
Dados estruturados
Esses formatos de dados são padronizados, um típico representante dos dados em um banco de dados relacional, estes dados podem ser utilizados tabelas bidimensionais para armazenar um número fixo de campos, cada campo tem um tipo de dados fixo (numérico, data personagem, ,), eo comprimento em bytes de cada campo é também relativamente fixa. Tais dados é o mais fácil de controlar e manter, ao mesmo tempo é mais conveniente para o formato de dados de exibição de consulta, e análise.
Dados estruturados no local, refere-se geralmente a um local dentro dos dados de base de dados, bem como alguns dos dados obtidos no interface de base de dados externa aberta. Estes dados podem ser importados por ETL em um data warehouse para a gestão integrada, análise do local e análise de dados, conforme exigido pela consulta SQL para exportar.
Dados estruturados ocupar uma posição central na análise dos dados local, os dados armazenados no banco de dados são geralmente os dados operacionais do local e de dados do usuário de operação de resultados (resultado), tais como o número de utilizadores registados no sítio, o número de artigos de blogue comentários ... para sites de comércio eletrônico, ordens e dados de vendas diretamente para o armazenamento e banco de dados, com base nesses dados, calculou o lucro total por lucro médio para que cada usuário crie lucros e KPI outro dados pode ser a análise direta dos objetivos do site estão sendo alcançados.
Dados semi-estruturados
Dados semi-estruturados especificações de formatos, são geralmente dados de texto simples, você pode resolver cada um dos dados de alguma forma. O mais comum é os dados do registro, XML, JSON dados formatados, que cada registro pode ser pré-definidas especificações, mas a informação contida em cada registro podem variar, e pode ter um número diferente de campos, incluindo diferentes nome do campo ou tipo de campo, ou contém um formato aninhado. Esses dados são geralmente saída de texto simples, gestão e manutenção também é mais conveniente, mas precisa usar esses dados, tais como consulta de acesso, ou análise de dados pode precisar desses formato de dados analítico correspondente.
Dados semi-estruturados é geralmente o local dos dados de log, ou por causa de alguma demanda para a saída de dados no formato XML ou JSON. O local mais comum de log do Apache, de acordo com campos pré-definidos, a fim de desempenhar o valor correspondente:
72.14.192.1 - [09/May/2010: 03:35:02 0800] "GET / HTTP/1.1" 200 13726 "-" "Mozilla/5.0 (Macintosh; U; PPC Mac OS X; en-US) , gzip (GFE) (via translate.google.com) "
Enquanto o formato JSON para o formulário (Key / Value) chave de dados de saída:
{Horário: 1234567890, ação: "comment", responde: true, o usuário: {o userid: 1, username: "abc"}}
Dados de log do Apache, que pode cortar como necessários para separar os dados úteis e importá-los para o armazém de dados, XML e JSON dados formatados, que podemos chamar de todos os tipos de análise de cadeia por meio de seu rótulo ou nome para se obter o valor correspondente para a camada de estrutura aninhada por camada de passagem a fim de obter, também seleccionar o armazém de dados para a análise de dados úteis. Neste processo, a conversão de uma parte da ETL irá tornar-se mais complexa, devido à necessidade de analisar o formato, este passo irá afectar directamente a estabilidade ETL e robustez. Há um problema preocupante é o formato dos dados e problemas de armazenamento, e pode ser necessário para criar um personalizado tipo de campo, ou selecionar banco de dados NoSQL, a discussão sobre banco de dados NoSQL estava em pleno andamento, a partir da tabela Big Google, Amazon Dynamo de Cassandra o Facebook, o banco de dados NoSQL, escalabilidade de armazenamento em massa de dados fornece uma nova solução para o gerenciamento de dados WEB.
Semi-estruturadas de dados também é muito importante para a análise de dados do site, click-stream do site registros e dados de comportamento do usuário são geralmente em forma de semi-estruturado saída de dados, quando os vários tipos de indicadores que precisamos análise estatística site ou o comportamento do usuário análise, tais dados é essencial.
Dados não estruturados
Dados não estruturados refere-se à classe de não-texto-puro de dados, não existe um formato padrão, não pode resolver diretamente o valor correspondente. Comuns de dados não estruturados documentos de texto ricos, páginas web, multimídia (imagens, som, vídeo, etc.) Esses dados não é fácil de coletar gestão não pode diretamente consulta e análise, de modo que este tipo de dados precisam usar uma abordagem diferente.
Rich text, imagens, som, vídeo e outras informações, a menos que a necessidade de mineração de texto avançada mineração de dados, multimídia, seja para diariamente envolvidos nas estatísticas de dados e análise de dados não estruturados em si não é a análise do valor. Não é, geralmente, os dados não estruturados diretamente na forma binária para o data warehouse, o pai do data warehouse - Inmon proposta só é necessário armazenar dados não estruturados nos metadados armazém de dados (metadados), ou dito Para explicar os dados. Então, nós, os dados não estruturados geralmente armazenados no sistema de arquivos (File System), que registra os dados de data warehouse para rapidamente índice e encontrar os dados necessários. Tal como o título documento do Word, resumo, autor, data de criação, última modificação, etc As fotos também podem incluir pixels de resolução. Como os itens de dados que você vê na guia Detalhes, clique com os atributos de arquivo, estes dados não estruturados em um formulário padrão de registro, e pode ajudar a localizar rapidamente consulta aos dados correspondentes não-estruturados, o mesmo pode ser utilizado para as estatísticas e análises, na verdade, é dar a cada de dados não estruturados, etiquetados e registro de informações do rótulo para o data warehouse.
De Maio, para a maioria dos sites, este tipo de dados não estruturados, a menos que ele é usado para avançado de mineração de dados, análise estatística de dados na maior parte do efeito do tempo não é grande, mas para determinados sites, como imagens, vídeo-aula site, os dados é crucial. Para fotos, sites de vídeo, fotos e vídeos é o produto do site, a imagem de vídeo gravada de meta-dados são as informações detalhadas e dados para estes produtos, análise de produtos, segmentos de produtos e assim dependentes destes dados; mesma forma, para alguns arquivo de documentos internos da empresa, dados, data warehouse unificada para gravar as informações desses arquivos, você pode pesquisar rapidamente para encontrar os arquivos necessários, quando necessário, é muito eficaz para uma gestão unificada e integrada de informações.
Com o desenvolvimento contínuo da Internet, todos os tipos de informação continua a expandir-se, há uma variedade de tipos de dados continuarão a surgir, eo armazém de dados desempenha o papel de integração de dados, processamento e gestão de todos os tipos de dados também vai continuar a melhorar otimização.
»Neste artigo, o BY-NC-SA acordo, reproduzido por favor especificar fonte: análise de dados website » "a fonte dos dados tipos de dados do warehouse"
Artigos relacionados:







Top wow data warehouse. . . .
Mencionado em NoSQL, na verdade eu também estou curioso, para a construção do armazém para a operacionalidade de um banco de dados não-relacional, eu
_at_ bookcold : o NoSQL A vantagem do avanço nas tabelas de banco de dados tradicionais dimensionais das limitações deste modelo, você pode armazenar uma grande variedade de dados estruturados; multi-nó de processamento paralelo para melhorar a capacidade de computação de dados. Porque não entrar em contacto com NoSQL, assim, no final não pode ser aplicado para o armazém de dados não é para dizer, mas pode ser, em certa medida estrutura de dados diferente subjacente um problema tão problemático.
Não sei os blogueiros de mineração de dados, não há relação entre a pesquisa ea análise do local e data mining. Recomendar "click-stream data warehouse" grande, eu encontrei uma web de mineração de dados - os dados do cliente em valor para o cliente "também é muito bom.