Mutlaka Abone ol

9 Mayıs 2014 Cuma

Big Data

 Büyük data yapısal ve yapısal olmayan şekilde hızlı bir biçimde büyüyen datalar için kullanılan popüler bir terimdir. Ve Bu büyük data sosyolojik olarak ya da iş olarak önemli olabilir. İnternetten elde edilen datalarda  bunlardan bir tanesi.  Neden diye soracak olursak: Çünkü ne kadar çok data olursa o kadar doğru analiz yapılabilir.
Doğru data ile ne kadar doğru analiz yapılırsa, karar vermek o kadar kolay olur. Ayrıca doğru analiz, operasyonel verimlilik, maliyet azalımı ve riskin ortadan kaldırılması anlamı taşır.
Büyük Data Tanımı:
2001 yılında Endüstri analisti Doug Laney şimdilerde Doug Laney Gartner olarak biliniyor, büyük datanın ana gövdesini üç V ile tanımladı. Volume ( Hacim), Velocity ( Hız), ve Variety ( Çeşitlilik)
Volume(Hacim) : Datanın Hacminin artmasına bir çok faktör neden olabilir. Ödeme tabanlı bir data yıllar boyu saklanabilir. Sosyal Medyadan gelen data şekilsiz bir data olarak nitelendirilir. Sayıları giderek artan sensörler makineden makineye dataları kaydeder. Geçmişte yüksek miktarda verinin depolanması büyük sorundu. Fakat düşen maliyetler ile birlikte günümüzde nasıl depolanacağından çok bu büyüklükte verinin analizini nasıl yaparsak daha verimli daha doğru Bilgi alırızve sonuca varırız daha büyük sorun Bu Noktada farklı bir konu Veri Madenciliği devreye giriyor.
Velocity ( Hız) Veri tahmin edilemez bir hızda transfer olmalı, burada zaman çok büyük önem taşıyor. RFID etiketleri, sensörler, ve akıllı ölçüm cihazları datanın gerektiği yere gerçeğe yakın bir sürede transfer olmasını sağlamaktadır. Birçok organizasyonda / Şirkette gerekli veriyi gerekli yere gerektiği hızda iletmek büyük zorluk oluşturuyor.
Variety (Çeşit) : Veri bugün her türlü formatta geliyor. Geleneksel Veritabanlarında stoklanmış, oluşturulmuş numerik veri. İş uygulamalarından oluşturulmuş bilgiler.Oluşturulmamış, e-mail adresleri, ödeme bilgileri, videolar, müzikler,ses dosyaları,.. Bu tip dataları bölmek, birleştirmeki parçalamak ve yönetmek halen bazı şirketler için çok zor bir şey.
Ben veriden bahsederken iki etmeni daha detaylı göz önünde bulundurmamız gerektiğini düşünüyorum
Variability  (Değişkenlik):   Bu Terim ile Birlikte Yukarıda belirtiğimiz 3V kuramı 4V olarak düzenlenebilir. Sonuç olarak, Verinin Hızının ve çeşitlerinin artarak devam etmesi, data akışının periyodik olarak düzensiz değişkenlik göstermesine sebep oluyor. Sosyal Medya’da trend olan bir şey? Günlük, Sezonluk, program (event) bazlı verileri yönetmek zor olabilir. Bununla beraber, oluşturulmamış dataları yönetmek de zor olabilir.
Çeşit terimindede bahsetiğimiz gibi Verilerde bir çok çeşitlilik ve karmaşa olabilir. Bu terimi ben ilk kez kullanmıyorum tabiki örneğin verilerin içinde bir email adresi test@test.com olması gerekirken test@testcom yazılmış olabilir.  Karmaşıklılık kavramını bunun için açıyoruz
Complexity (Karmaşıklık): Bugünün verileri birçok kaynaktan gelmekte. Ve bugün halen bu verileri bağlamak, eşlemek, temizlemek, dönüştürmek ve sisteme aktarmak büyük sorun teşkil ediyor. Fakat buna rağmen, ilişkileri bağlamak, ilişki kurmak, hiyerarşik hale getirmek, ve çoklamak mühim yoksa verileriniz kontrolden çıkar.
Neden Büyük Veri Sizin İçin Önem taşır
Buradaki mesele sizin büyük veri elde etmek istemeniz değil. Mesele elinizdeki veri ile ne yapmak istediğiniz. Organizasyonların ümit edilen vizyonu herhangi bir kaynaktan gelen verinin analizi sonucunda şu sorulara yanıt bulabilmesi
1.Maliyet azalımı
2.Zaman Azalımı
3.Yeni Ürünün geliştirilmesi maliye tekliflerin optimize edilmesi
4.Daha Akıllı İş kararları vermek.
Sonuçta Büyük Veri  ile iyi analiz gücünü bir araya getirerek bunları yapmak mümkün:
-Hataların Kök Nedenlerini Tespit Ederek Yıllık Milyarca Dolar Tasarruf
-Teslimat araçları yoldayken rotalarının verimlilik çerçevesinde yeniden optimize edilmesi
-Birçok ürünün stoklarını çıkarıp, stokları eritmek ve maksimum karlılık sağlamak
-Müşterinin bugün ve geçmişte yaptığı alışverişlerin analizlerini çıkararak, müşteriye özel perakende alışveriş –indirim kuponu yaratabilirsiniz.
-Cep telefonlarına anlık kısa mesaj ile müşterilere anlık ( Müşteri Mağazadayken) İndirim / Teklif sağlamak
-Yeni Risk Haritalarını dakikalar içinde hesaplama becerisi
-Sizin için en önemli müşterileri belirleme
-Size Zarar Verecek /Dolandırıcı müşteriyi Suistimalci müşteriyi kısa sürede tespit edebilme becerisi Bu son zamanlarda çok önem taşımaktadır Ben bunun için yeni bir Terim Kullanıyorum Spam Muşteri.


Sonuç Olarak Big Data bir kavramdır ve bünyesinde açık kaynak kodlu yazılımlarda barındırır. Bu yazılımların çekirdeğini Hadoop ismi ile anılan bir dizi yazılımlar grubu kapsar. bu kısmı biraz daha teknik kısma giriyor fakat aklımızda bulunması açısından bu yazılım ve tekniklerinden bazılarını şöyle listeleyebiliriz;
Hadoop Core
HDFS (Hadoop Distributed File System)
HDFS sayesinde sıradan sunucuların diskleri bir araya gelerek büyük, tek bir sanal disk oluştururlar. Bu sayede çok büyük boyutta bir çok dosya bu dosya sisteminde saklanabilir.
Hadoop MapReduce:  ise HDFS üzerindeki büyük dosyaları ve verileri işleyebilmek amacıyla kullanılan bir yöntemdir.
Tableau
Amazon Covers All Big-Data Bases
Cloudera Addresses Hadoop Analytics Gap
Hive (Data Warehouse)
HBase
ZooKeeper
Oozie
Couchbase Targets A NoSQL Divide

 Emrah Yedekci