Önceki yazımızda Büyük Veri analitiği ihtiyaçları hakkında konuşarak Azure Synapse Analytics hizmetinin sunduğu çözümleri daha iyi kavramayı hedefledik.
Önceki yazımıza şu linkten erişebilirsiniz:
http://www.abdullahkise.com/2020/12/azure-synapse-analytics-ile-butunlesik.html
Şimdi gelin Azure Synapse
Analytics hizmetinin öne çıkan farklı yönlerine biraz daha yakından bakalım.
Azure Synapse Studio
Öncelikle Azure üzerinde bir Synapse Workspace oluşturmak gerekli. Workspace oluştururken bir de Data Lake Storage oluşturmanız gerekecek. Bu storagei daha sonra bağlı servis olarak görüp kullanabilirsiniz.
Workspace oluştuktan sonra her şey Azure Synapse Studio ile kolayca aktif edilip kullanılabiliyor.
Azure Synapse Studio ile SQL ve Spark enginlerini
(pool) aktif edebilir, Azure Storage ve Power BI gibi bağlı servisler oluşturup
bu servisleri kullanabilir, ETL ve orkestrasyon için Pipeline ve DataFlow
oluşturabilir, SQL Scriptlerinizi, Notebooklarınızı ve diğer geliştirmelerinizi
depolayabilirsiniz. İşlemci kapasitesini ihtiyacınıza göre ayarlayabilir, yetkilendirmeler
yapabilir, tüm çalışmalar hakkında toplanan logları inceleyerek serviste olup biteni
takip edebilirsiniz.
SQL Pools
Workspace oluşturduğunuzda sanal
bir SQL sunucu otomatik olarak kullanımınıza sunulur. Bu sunucu size özel
performans sunmaz. Ortak kullanım amaçlıdır ve testler yapabilmeniz için
idealdir. Bu sunucuya ister Synapse Studio ile isterseniz overview penceresinde
de belirtildiği şekliyle <workspaceadı>-ondemand.sql.azuresynapse.net adıyla lokalinizden bağlanabilir, veritabanları oluşturup üzerinde çalışabilirsiniz.
SQL Pool bir nevi SQL
veritabanıdır. Siz de kendinize özel bir server kapasitesi talep ederek yeni
bir SQL Pool oluşturabilirsiniz. Oluştururken ihtiyacınız olan kapasiteyi DW…c
birimi ile ifa edebilir, ihtiyacına bağlı olarak daha sonra değişiklik
yapabilir, ihtiyaç duymadığınızda sanal sunucuyu duraklatabilirsiniz.
Size özel bu sanal sunucuya da aynı şekilde lokalinizden
<workspaceadı>.sql.azuresynapse.net server adıyla bağlanıp çalışabilirsiniz.
Synapse Studio’da Manage bölümünden
poolları oluşturup, yönetebilirsiniz.
SQL Pool dağıtık mimariye sahip
bir SQL Server alt yapısı sunuyor. Bu altyapı ile son sürüm SQL Engine yeteneklerinden
faydalanabiliriz. Mesela dahili PolyBase Engine sayesinde ilişkisel olamayan
verileri SQL içerisinde bir tablo olarak, her defasında direk kaynağından güncel
haliyle bilindik yöntemde sorgulama imkanına kavuşuyoruz.
Örneğin Azure Data Lake Storage’de
depolanan csv dosylarını External Table olarak tanımlayabiliriz. Bu sayede veri
SQL Server dışında storgede, tablo tanımı SQL Server’da yer alıyor. Diske gelen
her yeni dosya içeriği ek bir müdahalede bulunmadan sorgularımızda anında
listeleniyor.
Dilerseniz bu External Table
nesnelerini dağıtık mimarı içerisinde sizin belirttiğiniz şekilde dağıtılan kalıcı
tablolar da oluşturabilirsiniz. Ekrandaki örnekte dbo.KisilerStg extarnal table
olarak tanımlandı, dbo.Kisiler ise Round Robin (diğer yöntemler Replicated ve Hash)
yönetimiyle dağıtılan kalıcı tablo olarak tanımlandı. Kalıcı tabloların columnstore
indexlerle desteklenmesi ve dağıtık mimari ile işlenmesi neticesinde Azure Synapse performansını en üst seviyede hissetmeniz sağlanmaktadır.
Özetle yapısal formatta çalışılan veri ambarlarınızı SQL Pool ile oluşturabilirsiniz.
Integrate
Synapse Studio üzerinde Integrate bölümünde Pipeline ve DataFlow oluşturarak veri akışını ve düzenlenmesini kurgulayabilirsiniz. Aslında bu bölüm Azure Data Factory ile hemen hemen aynı özelliklere sahiptir.
Spark Pool
Spark Pool bir Spark Engine
hizmeti sunmaktadır. Yani Spark Core API (Scala, Python vs.), Spark SQL, Spark
Streaming, GraphX ve Spark ML bileşenlerinden faydalanabilirsiniz.
Spark Pool dağıtık mimari
kullanır. Ölçeklendirmeyi kolayca yapabilirsiniz ve bunu otomatikleştirebilirsiniz.
Spark InMemory çalışabilen, iteratif
işlerde başarılı, dağıtık mimariye sahip ve her türden veriyi işleyip, görselleştirebileceğiniz
ve hatta makine öğrenimi çalışmaları yürütebileceğiniz bir ortam sunmaktadır.
Manage bölümünden Spark poolu duraklatabilir. Performans kapasitesini ihtiyacınıza göre ayarlayabilirsiniz.
SQL Pool ve Spark Pool aslında bağımsız çalışır. Dilerseniz bu iki Engineı konuşturabilirsiniz.
Spark Pool üzerinde çalışmak için Synapse Studio içerisinde yer alan dahili notebook çalışma ortamını kullanabilirsiniz.
Özetle her türden veriyi depolamak için veri göllerinizi ve makine öğrenimi projelerinizi Spark Pool üzerinde oluşturabilirsiniz.
Power BI
Power BI, Gartner Magic Quadrant’ında
lider konumda ve bu bugünlerde bir hayli yaygın kullanıma sahip kullanıcı dostu bir veri modelleme ve raporlama ürünüdür.
Spark Studio üzerinde bağlı
servisler arasına Power BI çalışma alanları ekleyebilir interaktif raporlarınızı doğrudan burada
oluşturabilirsiniz.
Aşağıdaki gibi bir çalışmayı linkteki tutorialı takip ederek elde edebilirsiniz:
https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-to-power-bi
Azure Synapse Analytics hizmeti
bir hayli yetenekli. Uçtan uca yapay zekâ ve iş zekâsı çalışmaları yürütebileceğiniz
SQL, Spark, Data Factory, Azure Storage ve Power BI ürünlerini bir araya getirmiş,
limitsiz depolama alanı sunan, ölçeklenebilir işlem kapasitesine sahip, dağıtık
mimaride bütünleşik bir hizmet.
Azure Synapse Analytics ile büyük
veri analitiği süreçlerinde ortaya çıkan birçok problemi tek çatı altında
çözüme kavuşturmak mümkün görünüyor.