Главная > Сайт хранилищ данных, хранилищ данных типов источников данных

Тип источника данных в хранилище данных

20 июля 2010 по joegh Сообщение »

dw-source-data Комплексные предприятия могут получить почти все данные в хранилище данных для анализа данных и поддержки принятия решений, в том числе, конечно, все данные, которые я упоминал в веб-аналитики источников данных . Эти данные в хранилище данных не меньше, чем на три типа: структурированные данные, частично структурированных данных и неструктурированных данных, после преобразования объединены в той или иной форме, хранятся в хранилище данных, которое обычно говорит ETL (извлечение, преобразование, загрузка, извлечение, преобразование, загрузка) процесса. Следующий будет в основном говорить о разнице между этими тремя типами данных, соответственно, в том числе, какой источник данных, и эти данные при анализе данных сайта.

Структурированные данные

Такие форматы данных стандартизированы, типичный представитель данные в реляционной базе данных, эти данные могут быть использованы двумерной таблицы для хранения фиксированного числа полей, каждое поле имеет определенный тип данных (числовой, символьный, дата ,), а длина в байтах каждого поля и относительно неизменными. Такие данные самый простой в управлении и обслуживании, в то же время является наиболее удобным для формата запроса, отображения и анализа данных.

Структурированные данные на сайте, как правило, ссылается на сайт в базу данных, а также некоторые данные, полученные во внешней открытый интерфейс базы данных. Эти данные могут быть импортированы ETL для хранилища данных для интегрированного управления, анализ сайта и анализ данных, как того требует SQL запросов заявление на экспорт.

Структурированные данные занимают ключевую позицию в анализе данных сайта, данные хранятся в базе данных, как правило оперативным данным сайтом и пользователем результат операции данных (результатов), такие как число зарегистрированных пользователей сайта, количество статей блога Комментарии ... для сайтов электронной коммерции, заказы и данные о продажах непосредственно для хранения и баз данных, основанных на этих данных, рассчитывается общая сумма прибыли в среднем порядка прибыли для каждого пользователя, для создания прибыли и других KPI Данные могут быть непосредственным анализом цели сайта были достигнуты.

Полу-структурированные данные

Полу-структурированные данные спецификации формата, как правило, текстовых данных, вы можете разрешить каждому из данных в некотором роде. Наиболее распространенным является журнал данных, XML, JSON формат данных, каждый из них запись может быть предопределенным характеристиками, но информация, содержащаяся в каждой записи может меняться, и могут иметь разное количество полей, включая различные имя поля или поля типа или содержит вложенную формате. Такие данные, как правило, простой текстовый вывод, управление и техническое обслуживание также более удобно, но нужно использовать эти данные, такие как доступ, запросов и анализа данных, возможно, придется эти данные в соответствии с форматом аналитический.

Полу-структурированные данные, как правило, сайт журнала данных, или потому, что некоторые спрос на продукцию данных XML или JSON формат. Наиболее распространенными сайт журнала Apache, в соответствии с предопределенными полями, чтобы играть в соответствующие значения:

72.14.192.1 - [09/May/2010: 3:35:02 +0800] "GET / HTTP/1.1" 200 13726 "-" "Mozilla/5.0 (compatible; PPC Mac OS X; EN-US) , GZIP (GFE) (через translate.google.com) "

В то время как JSON формат ключей (Key / Value) форма выходных данных:

{Время: 1234567890, действие: "Комментарий", отвечает: так, пользователь: {идентификатор пользователя: 1 имя пользователя: "ABC"}}

Apache журнал данных, мы сможем сократить по мере необходимости отделить полезные данные и импортировать их в хранилище данных, XML и JSON данных в формате, мы можем назвать все виды разбора строки через свой лейбл или название получить соответствующее значение для вложенной структуры слоя за слоем обход с целью получения, а также выбрать хранилище данных для анализа полезной информации. В этом процессе превращения части ETL будет становиться все более сложной из-за необходимости разбора формата, этот шаг будет непосредственно влиять на ETL стабильности и надежности. Существует беспокойство проблемой является формат хранения данных и вопросы, и это может быть необходимо для создания настраиваемого типа поля или выберите NoSQL базы данных, обсуждение базы данных NoSQL был в самом разгаре, из Большой стол Google, Amazon Динамо Facebook Кассандра, NoSQL базы данных, масштабируемость, хранения больших объемов данных обеспечивает новое решение для управления данными WEB.

Полу-структурированные данные, также очень важно для анализа данных сайта, сайт нажмите потока данных журналов и поведения пользователей, как правило, в виде полу-структурированные данные, выходные, когда различные типы показателей мы должны анализа статистики сайта или поведения пользователей Анализ таких данных является существенным.

Неструктурированных данных

Неструктурированных данных относится к классу не-текстовых данных, не существует стандартного формата, не может напрямую решить соответствующее значение. Общие неструктурированных данных богатые текстовые документы, веб-страниц, мультимедийных файлов (изображений, звука, видео и т.д.). Такие данные не так легко собрать управления не может непосредственно запросов и анализа, поэтому такого рода данных, необходимо использовать другой подход.

Форматированный текст, изображения, звук, видео и другой информации, если необходимость совершенствования анализа текста, мультимедиа интеллектуального анализа данных, как для ежедневной, участвующих в данных статистики и анализа неструктурированных данных, сам не анализ стоимости. Как правило, не неструктурированные данные непосредственно в двоичной форме в хранилище данных, отец хранилище данных - предложение Инмона только нужно хранить неструктурированные данные в метаданных хранилища данных (метаданных), или говорит Чтобы объяснить эти данные. Таким образом, мы вообще неструктурированных данных, хранящихся в файловой системе (File System), которая фиксирует в хранилище данных данные быстро индексировать и находить необходимые данные. Такие, как Слово название документа, аннотация, автор, время создания, время последнего изменения и т. д. Изображения могут также включать пикселей. Как и те элементы данных, которые вы видите на вкладке сведений щелкните правой кнопкой мыши по файлу атрибуты этих неструктурированных данных в стандартной форме записи, и может помочь для быстрого поиска запрос в соответствующие неструктурированных данных, то же самое может быть использована для статистики и анализа, по сути, дать каждому из неструктурированных данных, помечены, и лейбл информации в хранилище данных.

Может, для большинства сайтов, такого рода неструктурированных данных, если они не используются для расширенного анализа данных, статистического анализа данных в большинстве случаев эффект не велик, но для некоторых сайтов, таких как фотографии, видео класс сайта, данных имеет решающее значение. Для фотографий, видео-сайты, фотографии и видео продуктов на сайте, записанного видеоизображения мета-данных, подробную информацию и данные для этих продуктов, анализ продуктов, продуктовых сегментов и т.д. в зависимости от этих данных; Кроме того, для некоторых Архив внутренние документы компании, данные единого хранилища данных, чтобы записать информацию из этих файлов, вы можете быстро искать, чтобы найти необходимые файлы в случае необходимости, является очень эффективным для единого и комплексного управления информацией.

С непрерывным развитием Интернета, все виды информации, продолжает расширяться, существуют различные типы данных будут продолжать появляться, и хранилище данных играет роль интеграции данных, обработки и управления для всех типов данных будет также продолжать совершенствовать оптимизации.


»В этой статье BY-NC-SA соглашение, воспроизводить пожалуйста, укажите источник: анализ данных сайта » "источник данных хранилища данных типов"

Статьи по теме:

  1. Хранилище данных управления метаданными
  2. Базовая структура хранилища данных
  3. Значение хранилища данных
  4. Данные куба и OLAP
  5. Основные характеристики OLAP
  1. Aibei Фу сказал:

    Лучшие вау хранилища данных. . . .

    Ответ Ответ
  2. bookcold сказал:

    Упоминается в NoSQL, на самом деле я тоже любопытно, построить склад работоспособность, не реляционная база данных, я

    Ответ Ответ
  3. joegh сказал:

    _at_ bookcold : NoSQL преимущество прорыв в традиционной базе данных мерных таблиц ограничений этой модели, вы можете хранить различные структурированные данные, многоузловой параллельной обработки с целью улучшения способности вычислительных данных. Потому что он не вступает в контакт с NoSQL, так что в конце концов, не могут быть применены в хранилище данных не сказать, но это может быть до некоторой степени различные основные структуры данных, такие неприятная проблема.

    Ответ Ответ
  4. Я говорил летом и осенью :

    Не знаю блоггеров интеллектуального анализа данных, нет никакой связи между научно-исследовательскими и анализ сайта и интеллектуального анализа данных. Рекомендовать «клик-поток хранилища данных" великий, я обнаружил, добыча веб-данные - данные о клиентах в потребительской ценности »также очень хороши.

    Ответ Ответ

Оставить комментарий