الصفحة الرئيسية > مستودع بيانات الموقع، مصدر مستودع البيانات أنواع البيانات

نوع البيانات من مصدر مستودع البيانات

20 يوليو 2010 بواسطة joegh رسالة »

dw-source-data يمكن للشركات الحصول على كل متكامل تقريبا من البيانات في مستودع البيانات لتحليل البيانات ودعم اتخاذ القرار، بما في ذلك بالطبع كل البيانات التي يمكنني ذكرها في المصادر على شبكة الإنترنت تحليلات البيانات . هذه البيانات في مستودع البيانات ليس أقل من ثلاثة أنواع: البيانات المهيكلة، والبيانات شبه منظم وغير منظم البيانات، بعد تحويلها إلى شكل ما من أشكال موحدة يتم تخزينها في مستودع البيانات، والذي يقال عادة ETL (استخراج، تحويل، تحميل، استخراج، تحويل، تحميل) للعملية. التالية سوف نتحدث أساسا عن الفرق بين هذه الأنواع الثلاثة من البيانات، على التوالي، بما في ذلك البيانات التي ومصدر هذه البيانات في تحليل بيانات الموقع.

منظم البيانات

هذه نماذج البيانات هي موحدة، وممثل نموذجي من البيانات في قاعدة بيانات علائقية، ويمكن استخدام هذه البيانات ثنائية الأبعاد الجداول لتخزين عدد محدد من المجالات، كل حقل له نوع بيانات ثابت (رقمي، حرف، تاريخ ، هو أيضا)، وطول بايت في كل حقل ثابتة نسبيا. مثل هذه البيانات هي الأكثر سهولة لإدارة وصيانة، في نفس الوقت هو الأكثر ملاءمة لتنسيق البيانات الاستعلام، وعرض وتحليل.

البيانات المهيكلة على الموقع، وتشير بصفة عامة إلى موقع داخل قاعدة البيانات، فضلا عن بعض البيانات التي تم الحصول عليها في واجهة قاعدة البيانات المفتوحة خارجي. يمكن استيراد هذه البيانات من خلال ETL إلى مستودع بيانات لإدارة متكاملة، وتحليل الموقع وتحليل البيانات كما هو مطلوب من قبل الاستعلام عبارة SQL للتصدير.

البيانات المنظمة تحتل مكانة محورية في موقع تحليل البيانات، والبيانات المخزنة في قاعدة البيانات عادة ما تكون البيانات التشغيلية للموقع وبيانات المستخدم نتيجة عملية (النتيجة)، مثل عدد المستخدمين المسجلين في الموقع، وعدد من المواد بلوق تعليق ... لمواقع التجارة الإلكترونية، وأوامر وبيانات مبيعات مباشرة إلى التخزين وقاعدة البيانات، وبناء على هذه البيانات، وحساب الأرباح الكلية لكل متوسط ​​الربح النظام لكل مستخدم لخلق الأرباح وغيرها من KPI يمكن أن تكون البيانات وتحليل مباشر لأهداف الموقع ويجري تحقيقه.

شبه منظمة البيانات

شبه منظمة بيانات مواصفات الشكل، وعادة ما تكون البيانات النص العادي، يمكنك حل كل واحد من البيانات في بعض الطريق. الأكثر شيوعا هي بيانات السجل، XML، JSON تنسيق البيانات، التي قد يكون كل سجل مواصفات محددة مسبقا، ولكن المعلومات الواردة في كل محضر قد تختلف، وربما يكون عدد مختلف من المجالات، بما في ذلك مختلف اسم الحقل أو نوع الحقل، أو تحتوي على شكل متداخل. مثل هذه البيانات بشكل عام سهل إخراج النص، والإدارة والصيانة هو أيضا أكثر ملاءمة، ولكنها تحتاج إلى استخدام هذه البيانات، مثل الوصول، الاستعلام أو تحليل البيانات التي قد تحتاج إلى تنسيق هذه البيانات التحليلية ذات الصلة.

شبه منظمة بيانات عادة ما يكون موقع للبيانات السجل، أو بسبب بعض الطلب على الانتاج في شكل بيانات XML أو JSON. الموقع الأكثر شيوعا من سجل أباتشي، وفقا لمجالات محددة مسبقا من أجل لعب القيمة المقابلة:

72.14.192.1 - [09/May/2010: 03:35:02 +0800] "GET / HTTP/1.1" 200 13726 "-" "Mozilla/5.0 (ماكنتوش، U، PPC ماكنتوش؛ EN-US) ، غزيب (GFE) (عبر translate.google.com) "

في حين شكل JSON إلى النموذج (مفتاح / قيمة) مفتاح للبيانات الناتج:

{الوقت: 1234567890، عمل: "تعليق"، والاستجابة: صحيح، للمستخدم: {ورقم العضوية: 1، اسم المستخدم: "اي بي سي"}}

أباتشي بيانات السجل، ونحن يمكن أن يقلل الحاجة للفصل بين بيانات مفيدة واستيرادها إلى مستودع البيانات، XML والبيانات JSON منسق، ويمكن أن نسميه جميع أنواع تحليل سلسلة من خلال التسمية، أو اسم للحصول على القيمة المقابلة للطبقة بنية متداخلة من اجتياز طبقة من أجل الحصول عليها، وأيضا تحديد مستودع البيانات لتحليل البيانات المفيدة. في هذه العملية، وتحويل جزء من ETL أصبحت أكثر تعقيدا بسبب الحاجة إلى تحليل الشكل، وهذه الخطوة سوف تؤثر بشكل مباشر على استقرار ومتانة ETL. وكان النقاش حول قاعدة البيانات أو تحديد قاعدة بيانات NOSQL NOSQL، على قدم وساق، من جدول جوجل بيج، والأمازون إلى دينامو، وليس هناك مشكلة مزعجة هو تنسيق البيانات وقضايا التخزين، وأنه قد يكون من الضروري إنشاء نوع حقل مخصص وكاساندرا الفيسبوك، وقاعدة بيانات NOSQL، والتدرجية، كتلة تخزين البيانات، ويقدم الحل الجديد لويب لإدارة البيانات.

شبه منظمة البيانات هو أيضا مهم جدا لتحليل بيانات موقع، موقع سجلات النقر تيار البيانات وسلوك المستخدم عادة ما تكون في شكل إخراج البيانات شبه منظمة عندما مختلف أنواع المؤشرات نحتاج إحصائيات الموقع أو تحليل سلوك المستخدم التحليل، ومثل هذه البيانات أمر ضروري.

غير منظم البيانات

غير منظم البيانات تشير إلى فئة غير عادي بيانات النص، لا يوجد شكل موحد، لا يمكن حل مباشرة القيمة المطابقة. غير منظم البيانات المشتركة الوثائق والنصوص الغنية، وصفحات الويب، والوسائط المتعددة (الصور والصوت والفيديو، وغيرها). مثل هذه البيانات ليس من السهل جمع ويمكن إدارة لا الاستعلام مباشرة والتحليل، لذلك هذا النوع من البيانات تحتاج إلى استخدام نهج مختلف.

النص الغني، والصور والصوت والفيديو وغيرها من المعلومات، ما لم يكن ضرورة متقدمة النص والتعدين، واستخراج البيانات وسائط متعددة، سواء كان ذلك ليومي المشاركة في البيانات الإحصائية وتحليل البيانات غير المهيكلة في حد ذاته ليس تحليلا للقيمة. وهو بشكل عام وليس البيانات غير المهيكلة مباشرة في شكل ثنائي في مستودع البيانات، والد مستودع البيانات - اقتراح Inmon هو بحاجة فقط لتخزين البيانات غير منظم في مستودع البيانات الفوقية (بيانات التعريف)، أو قال لتفسير البيانات. لذلك نحن غير منظم البيانات عموما المخزنة في ملف النظام (نظام الملفات)، الذي يسجل في بيانات مستودع البيانات لمؤشر بسرعة والعثور على البيانات المطلوبة. قد مثل عنوان وثيقة وورد، مجردة، والمؤلف، وقت إنشاء، وقت آخر تعديل، وما إلى الصور وتشمل أيضا بكسل القرار. مثل تلك البنود البيانات التي تراها تحت علامة التبويب تفاصيل، انقر بالزر الايمن على سمات الملف، وهذه البيانات غير المهيكلة إلى صيغة موحدة للسجل، ويمكن أن تساعد في البحث بسرعة الاستعلام لبيانات غير منظم المقابلة، ونفس يمكن أن تستخدم في الإحصاءات والتحليلات، في الواقع، هو إعطاء كل واحد من البيانات غير المهيكلة، وصفت، وسجل العلامة المعلومات إلى مستودع البيانات.

ربما، بالنسبة لمعظم المواقع، وهذا النوع من البيانات غير المهيكلة ما لم يتم استخدامها لتحليل البيانات المتقدمة، والتعدين الإحصائي للبيانات في معظم الوقت لا تأثير كبير، ولكن لبعض المواقع، مثل الصور، فئة الفيديو موقع، فإن البيانات غير حاسمة. للحصول على صور، ومواقع الفيديو والصور والفيديو هو المنتج للموقع، وصور فيديو مسجل البيانات الفوقية هي معلومات وبيانات تفصيلية عن هذه المنتجات، وتحليل المنتجات، وفئات المنتجات، وتعتمد كثيرا على هذه البيانات، وبالمثل، بالنسبة لبعض أرشيف وثائق الشركة الداخلية والبيانات والبيانات مستودع موحد لتسجيل المعلومات من هذه الملفات، يمكنك البحث بسرعة للعثور على الملفات اللازمة عند الضرورة، هي فعالة جدا لإدارة موحدة ومتكاملة من المعلومات.

وسوف مع التطور المستمر للإنترنت، وجميع أنواع المعلومات لا تزال تتوسع، وهناك مجموعة متنوعة من أنواع البيانات سوف تستمر في الظهور، ومستودع البيانات يلعب دور معالجة البيانات، والتكامل والإدارة لجميع أنواع البيانات أيضا أن تواصل تحسين التحسين.


»في هذه الورقة، و BY-NC-SA اتفاق أو استنساخها يرجى تحديد المصدر: موقع تحليل البيانات » "مصدر من أنواع البيانات مستودع البيانات"

مقالات ذات صلة:

  1. إدارة البيانات مستودع البيانات الفوقية
  2. البنية الأساسية لتخزين البيانات
  3. قيمة مستودع البيانات
  4. بيانات المكعب وOLAP
  5. الخصائص الأساسية للOLAP

10 تعليق

  1. Aibei فو قال:

    قمة نجاح باهر مستودع البيانات. . . .

    رد رد
  2. bookcold قال:

    المذكورة في NoSQL، في الواقع أنا أيضا غريبة، لبناء مستودع للعمليات التشغيل من قاعدة بيانات غير علائقية، وأنا

    رد رد
  3. وقال joegh:

    _AT_ bookcold : NoSQL في الاستفادة من الانفراج في جداول قاعدة البيانات التقليدية الأبعاد القيود المفروضة على هذا النموذج، يمكنك تخزين مجموعة متنوعة من البيانات المهيكلة، متعددة العقدة المعالجة المتوازية لتحسين قدرة الحوسبة البيانات. لأنه لم يدخل حيز الاتصال مع NoSQL، بحيث يمكن في النهاية لا يمكن تطبيقها على مستودع البيانات لا يعني، لكن يمكن أن تكون مختلفة إلى حد ما بنية البيانات الأساسية مثل مشكلة مزعجة.

    رد رد
  4. لا نعرف من المدونين استخراج البيانات، وعدم وجود علاقة بين البحث والتحليل موقع واستخراج البيانات. يوصي "مستودع البيانات بضغطة وتيار" عظيم، لقد وجدت والتنقيب عن البيانات على شبكة الإنترنت - بيانات العملاء إلى قيمة العميل "هو أيضا جيدة للغاية.

    رد رد

اترك التعليق