عبارة عن مجموعة كبيرة من البيانات والتي تتضمن معلومات وصوراً وأرقاماً وتسجيلات صوتية وغيرها، وهذه البيانات غالباً ما تكون معقدة بحيث يصعب تحليلها باستخدام وسيلة أو أداة واحدة فقط. وتتميز هذه البيانات بكونها ضخمة وبالتالي لا يمكن أن تتوفر في أجهزتنا الخاصة، بل يمكن أن تكون في منصات وسائل التواصل الاجتماعي مثلاً، أي أن موقعاً كفيسبوك أو تويتر، يمكن أن يتضمن بيانات ضخمة، كونه يحتوي على الملايين من الحسابات العائدة لأشخاص. ويجب أن تتوفر عدة عوامل لاعتبار البيانات ضخمة، أهمها الحجم وسرعة تدفقها وتنوعها، أي تكون أشكالها متنوعة بين الصور والأرقام والتسجيلات الصوتية وغيرها.
يعرِّف معهد ماكنزي البيانات الضخمة على أنها مجموعة من البيانات التي تمتلك حجماً يصعب تخزينه أو تحليله أو إدارته بواسطة أدوات قواعد البيانات التقليدية.
تعد هادوب (Hadoop) من أفضل تقنيات التعامل مع البيانات الضخمة، وهي مكتبة مفتوحة المصدر مناسبة للتعامل مع البيانات الضخمة المتنوعة والسريعة، وتستخدم شركات كبرى خدمة هادوب، مثلاً هناك لينكد إن الشبكة الاجتماعية المتخصصة بالوظائف والعمل تستخدم الخدمة من أجل توليد أكثر من 100 مليار مقترح على المستخدمين أسبوعياً.