Veri analitiği uğraşı; geçmişte olanı tahlil etmek ve gelecekte olacakları tahmin etmek için, veri yığınları arasında şu 4 sorunun cevabını keşfetme veya icat etme serüvenidir:
Ne oldu? Neden oldu? Ne olacak?
Olması için ne yapmalıyım?
Bu soruların cevaplarını
bulabilmek için özetle şu 5 adımı atıyoruz:
Veri yığınlarını seçip
depoluyoruz (Capture). Onları kullanışlı hale getirmek amacıyla düzenliyoruz
(Organize). Çözüme hizmet edecek platformlarla entegre ediyoruz (Integrate).
Ham veriyi karar vermek ve olayların iç yüzünü anlayabilmek için inceliyoruz
(Analyze). Son olarak elde ettiğimiz bilgiler doğrultusunda aksiyonlar alıyoruz
(Act). Bu döngüyü serüven boyunca tekrar ediyoruz.
Bahsi geçen bu adımları atarken birçok dirençle karşılaşılmaktadır. Özellikle söz konusu büyük veri ise macera hep devam ediyor.
Uzun zamandır etrafta neler olup bittiği herkesin malumu. Veri çok
fazla kullanıcı, cihaz, yazılım tarafından üretilmekte ve tek bir makinenin işlem kapasitesini aşacak şekilde çok büyük
olabilmektedir. Üstelik çok farklı kaynaklardan birbirinden farklı formatlarda
türeyebilmektedir. Bazı veriler daha durağan iken bazısı saniyede milyarlarca
işlem sonucu türemekte ve geleneksel yöntemlerle yakalayıp analiz etmesi
neredeyse imkânsız hale gelebilmektedir. Bunlara ek olarak içerisinde birçok
gizemi barındıran veri yığınları arasından bir desen, bir eğilim elde etmek
ciddi emek istemektedir.
Şimdilerde bir şirketi ilgilendiren verilerin yalnızca %20’si yapısal (tablo olarak düşünebiliriz) formattadır. Geriye kalan devasa veri yığını ise düz metin, resim, ses, video, json, xml, parquet gibi kendine has özelliklere sahip serbest formatlarda yer almaktadır. Artık rekabette avantaj sağlamak isteyen şirketlerin geçmişle birlikte geleceği görme, kendi türettikleriyle birlikte etrafta kendisiyle ilgili ya da ilgili olabilecek niteliğe sahip her türden veriyi işlemeleri gerekmektedir.
Öyle görünüyor
ki bu artık bir lüks değil gerekliliktir. Teknolojinin baş döndüren hızı bu
alanda en üst seviyelere çıktığı için her türden verinin analiz edilmesinin bir
ihtiyaç olduğunun fark edilmesi ile geç kalınması arasında aksiyon alınabilecek yeterli
zaman bulunamayabilir.
Büyük veri analitiği çalışmalarının
daha az yorucu, sonuçların daha kullanışlı ve projelerin daha sürdürülebilir
olması için polyglot yaklaşımı yaygındır. Yani farklı türden
araçlar güçlü olduğu noktalarda devreye alınarak daha iyi çözümler üretilmeye
çalışılır.
Polyglot yaklaşımı biryandan da
başka problemleri gündeme getirdiği aşikar. Bu araçların yönetimi, güvenliği, performansı,
birbiri ile iletişim kurması vs.
Bir büyük veri analitiği projesi uçtan uca düşünüldüğünde birçok teknik ve aracı bir arada kullanmayı ve çeşitli problemlere çözüm üretmeyi ister istemez zorunlu kılıyor; yapısal olan-olmayan, farklı hacim, hız ve tipte veri üreten kaynaklara erişilmesi, verilerin düzenlenip ara katmanlara taşınması, veri gölleri ve veri ambarlarının oluşturulması, makine öğrenimi ve yapay zeka çalışmalarının yürütülmesi ve nihayet elde edilen çıktıların son kullanıcıya etkili şekilde raporlanması. Ayrıca artan verinin depolanması için gerekli alanın temin edilmesi, hesaplamalar için zaman zaman daha fazla ihtiyaç duyulan işlemci gücünün sağlanması, birlikte çalışmaya elverişli araçlar kullanılması, ihtiyaç anında kullanılabilecek yetenekli programlama dillerinin devreye alınabilmesi vs.
Bu ihtiyacı bir noktaya kadar ayrı ayrı SQL Server, Spark, Hadoop, Data Factory, Power BI, Data Lake Storage kullanarak karşılamak mümkün olabilir. Ancak bütünleşik bir yaklaşımla uçtan uca çözüm sunan başka bir hizmet daha var.
İşte
karşınızda Microsoft’un yeni göz bebeği Azure Synapse Analytics.
Azure Synapse Analytics eski Azure SQL Data Warehouse servisinin yerine gelen çok daha gelişmiş bir servis. Hem içerisinde Polybase Engine yeteneklerini sunan SQL Engine hizmetini (SQL Pool) hem Spark yeteneklerini (Spark Pool) hem Data Factory yeteneklerini (Integrate) hem de Power BI (Linked Service) yeteneklerini bir arada sunuyor.
Üstelik
dağıtık mimarisi sayesinde ihtiyacınıza göre işlemci gücünü ayarlayabilir,
sınırsız depolama alanına sahip olabilirsiniz. Bu ürün sayesinde tek çatı
altında veri gölleri oluşturarak her türden verinin taşınması, düzenlenmesi ve depolanması, stream verinin işlenebilmesi, graph tabanlı problemlerin çözülebilmesi, makine öğrenimi ve yapay zeka çalışmalarının yapılabilmesi, veri ambarlarının oluşturulabilmesi ve interaktif
raporların hazırlanabilmesi mümkün. Üstelik bunları isterseniz lokalinizdeki bilindik
araçlarla, isterseniz tarayıcınız üzerinde çalışan Azure Synapse Studio ile hiçbir
kuruluma gerek kalmadan yapabilirsiniz.
Hiç yorum yok:
Yorum Gönder