Büyük data yapısal ve
yapısal olmayan şekilde hızlı bir biçimde büyüyen datalar için kullanılan
popüler bir terimdir. Ve Bu büyük data sosyolojik olarak ya da iş olarak önemli
olabilir. İnternetten elde edilen datalarda bunlardan bir tanesi. Neden diye soracak olursak: Çünkü ne kadar
çok data olursa o kadar doğru analiz yapılabilir.
Doğru data ile ne kadar doğru analiz yapılırsa, karar vermek
o kadar kolay olur. Ayrıca doğru analiz, operasyonel verimlilik, maliyet
azalımı ve riskin ortadan kaldırılması anlamı taşır.
Büyük Data Tanımı:
2001 yılında Endüstri analisti Doug Laney şimdilerde Doug Laney Gartner olarak biliniyor, büyük
datanın ana gövdesini üç V ile tanımladı. Volume ( Hacim), Velocity ( Hız), ve
Variety ( Çeşitlilik)
Volume(Hacim) :
Datanın Hacminin artmasına bir çok faktör neden olabilir. Ödeme tabanlı bir
data yıllar boyu saklanabilir. Sosyal Medyadan gelen data şekilsiz bir data
olarak nitelendirilir. Sayıları giderek artan sensörler makineden makineye
dataları kaydeder. Geçmişte yüksek miktarda verinin depolanması büyük sorundu.
Fakat düşen maliyetler ile birlikte günümüzde nasıl depolanacağından çok bu
büyüklükte verinin analizini nasıl yaparsak daha verimli daha doğru Bilgi
alırızve sonuca varırız daha büyük sorun Bu Noktada farklı bir konu Veri
Madenciliği devreye giriyor.
Velocity ( Hız)
Veri tahmin edilemez bir hızda transfer olmalı, burada zaman çok büyük önem
taşıyor. RFID etiketleri, sensörler, ve akıllı ölçüm cihazları datanın
gerektiği yere gerçeğe yakın bir sürede transfer olmasını sağlamaktadır. Birçok
organizasyonda / Şirkette gerekli veriyi gerekli yere gerektiği hızda iletmek
büyük zorluk oluşturuyor.
Variety (Çeşit) :
Veri bugün her türlü formatta geliyor. Geleneksel Veritabanlarında stoklanmış,
oluşturulmuş numerik veri. İş uygulamalarından oluşturulmuş
bilgiler.Oluşturulmamış, e-mail adresleri, ödeme bilgileri, videolar,
müzikler,ses dosyaları,.. Bu tip dataları bölmek, birleştirmeki parçalamak ve
yönetmek halen bazı şirketler için çok zor bir şey.
Ben veriden
bahsederken iki etmeni daha detaylı göz önünde bulundurmamız gerektiğini
düşünüyorum
Variability (Değişkenlik):
Bu Terim ile Birlikte Yukarıda
belirtiğimiz 3V kuramı 4V olarak düzenlenebilir. Sonuç olarak, Verinin Hızının
ve çeşitlerinin artarak devam etmesi, data akışının periyodik olarak düzensiz
değişkenlik göstermesine sebep oluyor. Sosyal Medya’da trend olan bir şey?
Günlük, Sezonluk, program (event) bazlı verileri yönetmek zor olabilir. Bununla
beraber, oluşturulmamış dataları yönetmek de zor olabilir.
Çeşit terimindede bahsetiğimiz gibi Verilerde bir çok
çeşitlilik ve karmaşa olabilir. Bu terimi ben ilk kez kullanmıyorum tabiki
örneğin verilerin içinde bir email adresi test@test.com
olması gerekirken test@testcom yazılmış olabilir. Karmaşıklılık kavramını bunun için açıyoruz
Complexity (Karmaşıklık): Bugünün verileri birçok
kaynaktan gelmekte. Ve bugün halen bu verileri bağlamak, eşlemek, temizlemek, dönüştürmek
ve sisteme aktarmak büyük sorun teşkil ediyor. Fakat buna rağmen, ilişkileri
bağlamak, ilişki kurmak, hiyerarşik hale getirmek, ve çoklamak mühim yoksa
verileriniz kontrolden çıkar.
Neden Büyük Veri Sizin İçin Önem taşır
Buradaki mesele sizin büyük veri elde etmek istemeniz değil.
Mesele elinizdeki veri ile ne yapmak istediğiniz. Organizasyonların ümit edilen
vizyonu herhangi bir kaynaktan gelen verinin analizi sonucunda şu sorulara
yanıt bulabilmesi
1.Maliyet azalımı
2.Zaman Azalımı
3.Yeni Ürünün geliştirilmesi maliye tekliflerin optimize
edilmesi
4.Daha Akıllı İş kararları vermek.
Sonuçta Büyük Veri
ile iyi analiz gücünü bir araya getirerek bunları yapmak mümkün:
-Hataların Kök Nedenlerini Tespit Ederek Yıllık Milyarca
Dolar Tasarruf
-Teslimat araçları yoldayken rotalarının verimlilik
çerçevesinde yeniden optimize edilmesi
-Birçok ürünün stoklarını çıkarıp, stokları eritmek ve
maksimum karlılık sağlamak
-Müşterinin bugün ve geçmişte yaptığı alışverişlerin
analizlerini çıkararak, müşteriye özel perakende alışveriş –indirim kuponu
yaratabilirsiniz.
-Cep telefonlarına anlık kısa mesaj ile müşterilere anlık (
Müşteri Mağazadayken) İndirim / Teklif sağlamak
-Yeni Risk Haritalarını dakikalar içinde hesaplama becerisi
-Sizin için en önemli müşterileri belirleme
-Size Zarar Verecek /Dolandırıcı müşteriyi Suistimalci
müşteriyi kısa sürede tespit edebilme becerisi Bu son zamanlarda çok önem
taşımaktadır Ben bunun için yeni bir Terim Kullanıyorum Spam Muşteri.
Sonuç Olarak Big Data
bir kavramdır ve bünyesinde açık kaynak kodlu yazılımlarda barındırır. Bu
yazılımların çekirdeğini Hadoop ismi ile anılan bir dizi yazılımlar grubu
kapsar. bu kısmı biraz daha teknik kısma giriyor fakat aklımızda bulunması açısından bu yazılım ve tekniklerinden bazılarını şöyle listeleyebiliriz;
Hadoop Core
HDFS (Hadoop Distributed File System) HDFS sayesinde sıradan sunucuların diskleri bir araya gelerek büyük, tek bir sanal disk oluştururlar. Bu sayede çok büyük boyutta bir çok dosya bu dosya sisteminde saklanabilir.
HDFS (Hadoop Distributed File System) HDFS sayesinde sıradan sunucuların diskleri bir araya gelerek büyük, tek bir sanal disk oluştururlar. Bu sayede çok büyük boyutta bir çok dosya bu dosya sisteminde saklanabilir.
Hadoop
MapReduce: ise HDFS üzerindeki büyük
dosyaları ve verileri işleyebilmek amacıyla kullanılan bir yöntemdir.
Tableau
Amazon Covers All Big-Data Bases
Cloudera Addresses Hadoop Analytics Gap
Hive (Data Warehouse)
HBase
ZooKeeper
Oozie
Couchbase Targets A NoSQL Divide
Amazon Covers All Big-Data Bases
Cloudera Addresses Hadoop Analytics Gap
Hive (Data Warehouse)
HBase
ZooKeeper
Oozie
Couchbase Targets A NoSQL Divide