Veri Yönetimi (Data Platform, Business Intelligence, Data Science)

31 Ocak 2024 Çarşamba

Oradakiler de bizler gibiydi

Her İstanbullunun bir şekilde yolunun düştüğü, iki boğaz incisine de kucak açmış bekleyen ve sessizce bir köşeye çekilip İstanbul'u seyre koyulmuş; sahilleri, sahilde balıkçıları, yalıları, kasırları, tepeleri, kalesi, hisar ve deniz feneriyle sadra genişlik veren; hırçın ve engin bir denize güvenli bir liman olan, bağrında sakladığı mis gibi yemyeşil ormanlarıyla ciğerleri bayram ettiren Beykoz ilçesi düştü bugün aklıma.

Yazın bir başka güzel, kışın bir başka....
Çocuklar, anneler, dedeler... her yerdeler. Sakin ve mutlular. Hamdolsun.

Bir hayal edin! Geçen yaz uğrayıp tüm güzelliklerini tattığınız ve doyamadığınız Beykoz'a bu kış bir uğramak istediğinizde, taş taş üstünde kalmamış olsaydı. Beykoz'un hemen yanı başında bulunan Şile nüfusu kadar çoluk, çocuk, kadın ve yaşlı insanların cansız bedenlerinin etrafa saçılmış olduğunu görseydiniz.

Ne hissederdiniz?

Gazze böyle bir yer işte. Gazze'de devam eden katliamı bilip akla mukayyet olmak ne zor iş değil mi? Ya zalimi kesmek için sırasını bekleyen keskin kılıç misali çelik bir iradeye sahip olmak, ya da nefsinin esiri bir "belhum adal" olmak gerek.

Şu dünyada Beykoz kadar yer kaplayan Gazze'nin yüzölçümü 365 km2. Bağrına bastığı insan sayısı ise Beykoz'un 10 katı yani 2.5 milyon. Bunun 1.7 milyonu ise evlerinden sürülmüş göçmen kamplarında yaşam mücadelesi veren biçare insanlar.

Yani sanki 5. büyük ilimizde yaşayan, işinde gücünde Antalya halkını, 55 kat daha küçük bir alana sahip Beykoz'a zorla sürmüşler de başınızın çaresine bakın burada demişler.

Bu yetmemiş son 4 ayda aralarından bir Şile nüfusu kadar can almışlar. Üstelik bunların yarısı çocuk diğer yarısı da neredeyse tamamen kadın. Paramparçalar ve her yerdeler...

Gazze bundan daha kötüsünü yaşıyor. Katledilen çocuklar kadar kayıp çocuk raporlanmış durumda. Yaralı insanlar -ki bunların burnu kanadığı için yararlı değiller, katleden sıradan insanların 3 katından çok daha fazla.

Artık hak ve batıl apaçık ortada. Bunun bir meşru müdafaa hakkı olduğunu savunmak, insanlığın vicdanında derin yaralar açan bu olayı Ortadoğu'daki bir mesele olarak görmek, "Hayatımı etkilemesini istemiyorum." diyerek kişilik yoksunu açıklamalar yapmak, tüm bunlarla birlikte bu konunun ülkemizle alakalı olmadığını iddia edip vatansever kisvesine bürünmek cahillikten daha ziyade k*hpelik olsa gerek.

Kimse yok mu? dendiği şu günlerde varsın k*hpeler kendilerini yakışanı yapsın. Her birimiz ben varım diye sesleniyoruz. Surda bir delik açsak yeter, o k*hpe rüzgâr artık ne yandan eserse eser.

Israel-Gaza war in maps and charts: Live tracker:

https://www.aljazeera.com/news/longform/2023/10/9/israel-hamas-war-in-maps-and-charts-live-tracker

2 Eylül 2023 Cumartesi

Microsoft Fabric ile Veri ve Analitik Teknolojilerin İdeal Entegrasyonu

Microsoft'un en başarılı bulduğum yanlarından biri de, son derece karmaşık teknolojiler için bile kullanıcı dostu ürünler çıkarma konusunda hassas ve yetenekli olması.

Mayıs 2023 ile önizlemesi duyurulan Microsoft Fabric bu başarının en güncel örnekleri arasında yerini aldı. Şu günlerde henüz "public preview" aşamasında olan Fabric hakkında bir şeyler söylemeden bekleyemeyeceğim.

Elbette her sistem iyileştirilebilir. Ancak bu haliyle bile Microsoft, Fabric ile bulut tabanlı veri ve analitik teknolojileri birleştirme konusunda ideal bir yol bulmuşa benziyor.

Nedir Bu Microsoft Fabric?

Fabric tanımından önce Lakehouse kavramı hakkında biraz konuşmakta fayda var.

Verilerin bilgisayarlarda depolanmayı başladığı ilk günden bugüne çok fazla şeyle tanıştık. Verinin hızı, türü, büyüklüğü şaşırtıcı derecede değişti, değişmeye devam ediyor. Bu değişime ayak uydurulabilmesi için zamanla bir çok araç ve teknik öne sürüldü. Bunlardan sadece konumuzla doğrudan ilişkili olan veri yönetimi mimarilerine dikkat çekmek istiyorum.

1970 sonrasında biriken verilerin efektif şekilde analiz edilebilmesi için veri ambarı (Data Warehouse) konseptine odaklandık. Bu alanda ortaya atılan prensipler zamanla olgunlaştı ve Inmon, Kimball metodolojileri olarak bilinir hale geldi. Veri Ambarları uzun zamandır İş Zekası olarak isimlendirdiğimiz ağırlıklı olarak yapısal verinin işlendiği ve raporlandığı önemli bir çalışma alanının bel kemiği haline geldi.

2010 sonrasında verideki değişim kendini iyiden iyiye hissettirmeye başladı. Özellikle 2004'te duyurusu yapılan ve internetin ikinci evresini ifade eden, kullanıcıların da katkı sağlayacak pozisyona gelmesine olanak tanıyan Web 2.0 kavramı meyvelerini verdi. Giderek yaygınlaşan sosyal medya platformları, youtube, wikiler, çevrimiçi iş birliği araçları, akıllı cihazların uygulamaları, dijital fotoğrafçılık vs. derken veri çeşitliliği ve hızı arttı. Artık yapısal verilerle birlikte yapısal olmayan verilerin de işlenmesine ihtiyaç duyulur oldu. Değişimin hızlanmaya başladığı böyle bir dünyada NoSQL veritabanlarının yanı sıra verilerin daha çok depolama aygıtlarında en ham haliyle depolanması tercih edilir oldu. Bu çeşitlilik ve hız veriambarı tasarımları için de alternatif çözümler aramamıza ve zamanla Data Vault gibi çevik tasarım prensiplerinin doğmasına sebep oldu. Bütün bunlarla birlikte rekabette avantaj sağlanabilmesi için olayların iç yüzünü anlamada önemli imkanlar sunan veri bilimi ve makine öğrenimi çalışmalarına da ihtiyaç arttı. Bu gidişat veri gölü (Data Lake) konseptinin doğmasına sebep oldu.

2020'lerde bu iki mimarinin en iyi özelliklerini birleştirmeyi amaçlayan Data Lakehouse mimarisi hakkında konuşur olduk. Çünkü günümüzde neredeyse tüm şirketler rekabette avantaj sağlayabilmek için her türden veriyi sürekli analiz etmek, geçmiş ve gelecek hakkında fikir edinmek zorunda kaldı.

Lakehouse mimarisine göre çalışan bir platformun anahtar özellikleri şunlardır:

Transaction desteği
Schema zorunluluğu desteği
BI desteği
Açık kaynak depolama yöntemlerine destek
Depolamanın bilgi işlemden ayrı olması desteği
Aynı veri deposunu kullanan farklı iş yüklerinin (DS, ML, SQL vs.) desteklenmesi
Uçtan uca akan veri analizine destek

https://www.databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html

Kuruluşlar lakehouse mimarisine uygun çalışan araçlara her geçen gün daha fazla ihtiyaç duymaktadır. her türden verinin işlenmesi için gerekli olan bu mimarinin hayata geçirilmesinin en yorucu yanı farklı sağlayıcıların ürünlerini birleştirmek olsa gerek.

Microsoft Fabric temelde, OneLake isimli ölçeklenebilir depolama katmanının üzerine inşa edilen ve büyük veri işleme için Apache Spark ve SQL işlem altyapılarını kullanan bir Lakehouse'dur.

Microsoft Fabric, öne çıkan bulut tabanlı veri ve analitik teknolojileri kullanıcı dostu bir bakış açısı ile bir araya getiren yepyeni bir SaaS (Software as a Service) hizmetidir. Amacı veri gölünden raporlamaya kadar geçen tüm süreçler için çözümler sunmaktır.

Microsoft Fabric, veri entegrasyonu, veri depolama, veri mühendisliği, veri bilimi, gerçek zamanlı veri işleme ve iş zekasını kapsayan bulut tabanlı ürünlerle entegre çalışır. Verinin demokratikleştirilmesini, yani her uzmanın veri ile hedeflenen amaca başarıyla ulaşılabilmesi için gerekli araçları ve çalışma ortamını sağlar.

Synapse Analtics de benzer bir tanıma sahip ancak Microsoft Fabric'te her şey daha derli toplu hale gelmiş ve tüm teknik karmaşa göz önünden kaldırılmış.

Fabric tüm araçları kullanıcıyı yormadan veri seviyesinde derin bir entegrasyonla ve Power BI benzeri bir arayüz ile sunuyor.

Daha açık konuşmak gerekirse; Microsoft Fabric tüm verilerin OneLake üzerinde depolandığı, SQL ve Spark motorları ile verinin veri seviyesinde bir iş birliği ile işlenebildiği, orkestrasyon ve ETL için Data Factory arayüzlerinin kullanılabildiği, son kullanıcının Power BI'dan alışık olduğu bir arayüzde rapor geliştirebildiği ve internetin olduğu her yerden erişebilen bir SaaS platformu sunuyor.

Konuyu biraz daha açarsak; Microsoft Fabric şu deneyimleri sunmaktadır:

OneLake:

OneLake olarak isimlendirilen depolama katmanı OneDrive benzeri bir mantıkla çalışır. Bu depolama katmanı Fabric bileşenleri tarafından ortak şekilde kullanılır. Dosya tabanlı veriler, SQL-Spark tabloları, Power BI Datasetleri vs. Bu şekilde tüm bileşenler kullanıcıyı bir karmaşa ile muhatap etmeden bir birileriyle derin bir iletişimde halinde tutar.
OneDrive uygulamasına benzer şekilde, OneLake File Explorer aracı çalışma alanındaki dosyaları server ile eşleştirilebilir.
Tabloların SQL ve Spark tarafından ortak kullanılabilmesi için Delta tablo yapısının tercih edildiğini belirtelim. Bu noktada Synapse ile ilgili yazımızda ele aldığımız Shared Metadata özelliğinin Fabric'te biraz daha geliştirildiğini deneyimliyoruz.
Ayrıca OneLake'in veri yapıları için kısa yollar oluşturma imkanı da bulunmaktadır. Bu özellik önemli bir efor olan veri taşıma ihtiyacını da ortadan kaldırmış durumda.

Power BI:

Fabric Power Platform benzeri bir SaaS uygulaması olarak duyuruldu. Power BI Fabric'in reklam yüzü durumunda. Power BI lisanslarıyla da sıkı bir ilişkiye sahip. Power BI'da oluğu gibi ve Power BI ile entegre olan bir çalışma alanı açıp Fabric bileşenlerini deneyimlemeye başlıyoruz.
Ancak burada Fabric'i Power BI'ın bir üst versiyonu gibi algılamamak lazım. Fabric olsa olsa Synapse'in bir üst versiyonu olarak değerlendirilebilir.
Verinin demokratikleştirilmesi iddiasının altını dolduran şey son kullanıcının aşina olduğu Power BI'ın öğrenim eğrisi bir hayli dik olabilen araçların önünde her an kullanıma hazır şekilde devrede olması.

Data Factory:

Azure Data Factory'in tüm yetenekleri desteklenmese de veri taşıma, dönüştürme ve orkestrasyon için yeterli beceriye sahip bir bileşen.
Üstelik DataFlow Gen2 ismiyle duyurulan Power BI kullanıcılarının aşina olduğu Power Query benzeri (tüm fonksiyonalite desteklenmiyor) bir arayüze sahip ve M dili ile verinin dönüştürülmesi konusunda müthiş bir esneklik sunuyor.

Data Engineering:

LakeHouse oluşturma noktasında dosya tabanlı veriler ile Spark kullanarak çalışabilirsiniz. Dilerseniz bir Delta tablo inşa edip Shared Metada özelliği sayesinde hem Spark SQL ile hem de SQL Endpoint'i oluşturup Synapse DW olarak isimlendirilen SQL engine ile bu tablo üzerinde çalışabilirsiniz.
Delta tablolar parquet tabanlıdır. Yani kolon bazlı bir depolama mantığına dayalıdır. Parquet formatı verimliliği sebebi ile Büyük Veri dünyasında sıkça tercih edilir. Delta formatı ise parquet formatını ilişkisel veritabanı tabloları gibi kullanmamızı sağlıyor. Yani özetle transaction desteği olan, güncellenebilir tablo formuna sokuyor. Sonuç olarak bir veri gölünde veri dosyası depolama esnekliği ve ilişkisel veritabanı sisteminin birçok avantajını sunan analitik bir veri deposu konforuna ulaşıyoruz.
Delta isimli bu açık kaynak dosya formatı (disk yönetim biçimi) şuan konuyu saptırmasın diye girmek istemediğim bazı sebeplerden dolayı son zamanlarda sıkça tercih edilmektedir. Microsoft Fabric kullanırken deneyimleyeceğiniz bazı optimizasyonlar sayesinde bu dosya formatı yüksek yazma ve okuma performansı sunuyor (%50'ye varan).
SQL Enpoint oluştuğunda otomatik olarak bir Power BI Dataset de tanımlanıyor (Kendiniz de bunu tanımlayabilirsiniz). Bu Dataset V-Order gibi sıkıştırma ve segment eleme mantığında çalışan bazı özellikler sayesinde InMemory bir dataset gibi çalışmanızı üstelik refresh yapmanıza da gerek kalmadan tabloların son halini yüksek hızda raporlamanızı mümkün kılıyor.
Bütün bu özelliklerle birlikte bu bölümde veri entegrasyonuna ihtiyaç duyulacağı için Data Factory yeteneklerine erişilebilsin diye bir kısa yol da konmuş durumda.

Data Science:

Bu bölüm Spark ve Azure ML üzerinde çalışarak makine öğrenimi modelleri eğitmenize olanak tanıyor.
Açık kaynak MLFlow kütüphanesi desteğiyle hem ML süreçlerini Spark üzerinde daha iyi yönetebilir hem de Spark ve Azure ML iş birliğinden faydalanabilirsiniz.

Data Warehouse:

Synapse Data Warehouse olarak isimlendirilen bu ürün MPP mimarisine sahip (yani özetle büyük veri işlemek için işlemcileri dağıtık mimariye benzer mantıkta paralel kullanan) SQL engine hizmetine odaklanıyoruz. Dilerseniz Lakehouse tarafında oluşturduğunuz SQL Enpointlerini de buradaki pencereye ekleyip SQL ile sorgulayabilirsiniz.
Buradaki tablolar için varsayılan bir tabular Power BI modeli otomatik olarak inşa ediliyor. Modelde hangi tabloların olacağını, DAX formullerini vs. belirleyebiliyorsunuz. Ayrıca bölümde model üzerinden bir rapor yapmanız için gerekli kısa yollara ulaşabilirsiniz.
Yine bu bölüme de Data Factory yeteneklerine erişim imkanı konmuş durumda.

Real-Time Analytics:

Gerçek zaman veri akışının yönetilebilmesi için en temelde bir tür veri tabanı ve akışı analiz etmek için bir dile ihtiyaç var.
Bu bölüm Büyük hacimli verileri gerçek zamanlı olarak sorgulamak ve analiz etmek için KQL (Kusto Query Language) veritabanı oluşturmanıza ve KQL dili ile çalışmanıza imkan veriyor. Tablo ve sutun kullanımı, syntax olmasa da mantık bakımından SQL diline benzer bir deneyim sunması akan veri analizini bir hayli kolaylaştırıyor.
Ayrıca EventStream özelliği ile kod yazmadan kaynak ve hedef belirleyerek bir akışı gerçek zamanlı analiz edebiliyorsunuz.

Nasıl Kullanabilirim, Lisanslama Modelleri Neler?

Microsoft Fabric için bireysel ve kuruluş lisansları bulunuyor.

Kuruluş Lisansları:

Kullanıcı Başına Premium (PPU)
Kapasite

Bireysel Lisanslar:

Ücretsiz
Pro

Bu alanda bir makalelik daha konu çıkacağı ve zamanla güncelliğini yitirebileceği için doğrudan Microsoft kaynaklarına bakmanızı öneririm.

Lisanslama için şu linke bir göz atabilirsiniz:

https://learn.microsoft.com/tr-tr/fabric/enterprise/licenses

Microsoft Fabric şu aralar public preview aşamasında olduğu için aşağıdaki linkten ücretsiz olarak deneyebilirsiniz:

https://learn.microsoft.com/tr-tr/fabric/get-started/fabric-trial

Gerekli lisansa sahip olduktan sonra Microsoft Fabric'i aşağıdaki linkinden deneyimlemeye başlayabilirsiniz:

https://app.fabric.microsoft.com/

Peki ya Synapse Analytics?

Microsoft Fabric hakkında konuşurken bir çok ifadenin Synapse ile benzer olduğunu fark etmişsinizdir. Fabric, Synapse'in bir üst versiyonu olarak değerlendirilebilir. Synapse bir PaaS çözümü, Fabric ise bir SaaS çözümü olarak karşımıza çıkıyor. Bu bile Fabric tarafında kullanıcı konforunun ön planda olduğunun/olacağının bir alameti farikasıdır.

Synapse'teki bileşenlerin entegrasyonu sırasında dikkat edilmesi gereken teknik detaylar Fabric'te kullanıcıya yansıtılmamış. Bu haliyle Fabric tam bir Lakehouse mimarisi deneyimi yaşatıyor diyebiliriz. Synapse bileşenlerinin entegrasyonu arayüz seviyesindeyken Fabric üzerinde daha derinlerde veri seviyesinde bir entegrasyon görüyoruz. Üstelik tam anlamıyla uçtan uça bir akış motivasyonu sunulmuş. Veri kümeleri bir sonraki adım için otomatik olarak hazır ediliyor.

Synapse'teki bazı özelliklerden feragat edildi. Bazı yeni özellikler geldi. Mevcut özelliklerin de bazıları daha hızlı, verimli ve esnek şekilde kullanıma sunuldu.

Synapse Analytics uzun bir süre daha var olmaya devam edeceğini düşünüyorum. Fakat Microsoft'un Fabric tarafına odaklanacağı aşikar.

Genel İntiba

Microsoft Fabric her ne kadar Power BI görünümü ile son kullanıcıyı teşvik etse de arkaplanda koşturan Büyük Veri işleme canavarlarıyla birlikte düşünüldüğünde buz dağını andırıyor.

Veri Mühendisleri, Veri Bilimcileri ve Veri Analistlerinin iş birliği için yoğun mesai harcadığı, yaygın kullanıma sahip araçlar kullanıcı dostu yeni halleriyle Microsoft Fabric çatısı altında bir arada.

25 Temmuz 2023 Salı

2023-2024 Dönemiyle Birlikte Art Arda 8 Defa Data Platform Alanında En Değerli Profesyonel (MVP) Ödülü!

MVP (Most Valuable Professional) - En Değerli Profesyonel ödülü Microsoft tarafından her yıl yeniden değerlendirme sonucu dünya çapındaki bir kaç bin teknoloji öncüsüne sunulmaktadır.

Ülkemizde de bu ödüle layık görülen sınırlı sayıda profesyonel, farklı branşlardaki aktiviteleri ile çevresine ışık saçıyor.

2023-2024 dönemiyle birlikte art arda 8 defa Data Platform alanında MVP ödülüne layık görülmekten mutluluk duyuyorum.

Uzakta sandığımız fakat hayatın kenarında, hatta tam da ortasında olan gerçeklerle yüzleşmenin verdiği acıları her nefesimde hissettiğim şu günlerde bana destek olan tüm yakınlarıma minnettarım.

Bununla birlikte duygularıma duyarsız kalmayıp ilgi gösteren Microsoft ekibinden Rie Merritt ve Cristina Gonzalez Herrero'ya özellikle teşekkür ediyorum.

Hayatım boyunca yerli ve yabancı kurumsal firmalara götürdüğümüz hizmetlerle gelişen saha tecrübelerimi, kitabi bilgileri ve merakımı cezbeden en güncel teknik ve teknolojik kazanımlarımı, kendini geliştirmek isteyenlerle paylaşmayı üzerime bir borç bildim.

Bu paylaşımlardan bir çok kişinin istifade ettiğini görmek, bilmek ve özellikle geri dönüşlerini dinlemek beni mutlu ediyor.

Geçen seneki aktivitelerin bir kısmına Microsoft MVP profilimden erişebilirsiniz:

Abdullah KİSE (microsoft.com)

Eğer sizler de İş Zekası, Veritabanı Yönetimi, Büyük Veri, Yapay Zeka, Makine Öğrenimi gibi veri ve analitik konularıyla ilgiliyseniz, bağlantıda kalalım.

Bilgi paylaştıkça artar!

18 Mart 2023 Cumartesi

Azure ML Üzerinde Python ile Makine Öğrenimi Serisi (Playlist)

Azure ML üzerinde Python ile Makine Öğrenimi konusunda nazik ama etkili bir seri oldu.

Keyifli seyriler.

Serideki Bölümler:

Bölüm 1: Python Scriptleri ile Preprocessing
Bölüm 2: Sklearn ile Feature Engineering (Encoding, Scaling)
Bölüm 3: Azure Machine Learning Studio UI ile Job Çalıştırma
Bölüm 4: Python SDK ile Job Çalıştırma
Bölüm 5: Azure ML CLI v2 ile Job Çalıştırma

Azure ML üzerinde AutoML ile Makine Öğrenimi (Video)

https://youtu.be/YEHgEjrd6Js?list=PLHIuoJ0S5ae6L6etfBO6r62iMuwPHY8nh

Azure ML ile ilgili Makale:

https://www.devcosci.com.tr/Blog/BlogPost/Veri-Bilimcileri-Azure-Machine-Learning-ile-Artik-Daha-Uretken-ve-Daha-Guclu

1 Şubat 2023 Çarşamba

Veri Bilimcileri Azure Machine Learning ile Artık Daha Üretken ve Daha Güçlü

Azure Machine Learning, MLOps ve Microservice yaklaşımlarına uygun bir çalışma ortamı sunan ismiyle müsemma bir bulut hizmetidir. Azure üzerindeki farklı hizmetlerle ve Github ile entegre çalışarak Makine Öğrenimi projelerini kurumsal ölçekte, yüksek kalitede, değişen tüketim taleplerine cevap verecek esneklikte, istenirse otonom olarak, sürekli geliştirmeye ve iyileştirmeye açık olacak şekilde sürdürme imkanı verir.

Bu yazımızda kurumsal ölçekteki Makine Öğrenimi projelerinde dikkat edilmesi gereken bir kaç noktaya, Azure Machine Learning hizmetine ait bileşenlere ve bu hizmetin öne çıkan yeteneklerine odaklanalım istiyorum.

Uzun soluklu Makine Öğrenimi projeleri geliştirmeye niyetlenmeden önce bazı kavram ve metodolojiler hakkında bilgi sahibi olmak ve bu bilginin uygulanabilmesi için gerekli ortamı ve araçları hazır etmek gerekir.

Kurumsal ölçekte başarılı bir Makine Öğrenimi projesi yürütmek için İstatistiksel tekniklerin ve matematiksel algoritmaların arka planında neler olup bittiğinin derinlemesine biliniyor olması açıkçası önem sırası bakımından pek de üst sıralarda sayılmaz.

Bazılarının bu cümleyle irkildiğini tahmin edebiliyorum. Hemen bu noktada küçük bir savunma yapayım; Bir Matematikçi olarak böyle bir cümleyi kurmak benim için de kolay değil. Lakin proje bütününe ve günümüzdeki araçların geldiği noktaya baktığımızda buna hak vermemek elde değil.

Burada akademik bilginin önemsiz olduğunu ifade etmiyorum. Makine Öğrenimi konusundaki esaslara hakim olmak zaten gerekli. Bununla birlikte derinlemesine bir akademik bilgi sadece nadir noktalarda etkili sonuçlar elde etmemizi sağlayan avantajlar doğuruyor. Ancak bu avantajlara kavuşmak bir hayli maliyetli olabiliyor. Artık alet işler el övünür dönemindeyiz.

Bir Makine Öğrenimi projesinin hayata geçirilmesinin 12 ay sürdüğünü varsayalım. Bu sürenin yaklaşık 3 ayı model seçme, eğitme ve optimize etmeyle geçer. Üstelik bu süre zarfında en çok kullanılan teknik deneme yanılmadır. Geri kalan sürede kabaca verinin hazır edilmesi, eğitilmiş modelin yayınlanması, sahadaki yansımasının izlenmesi, sürekli iyileştirme ve geliştirme için gerekli otomasyonların kurulması, değişen talep yoğunluğuna cevap verecek dinamik bir alt yapının inşa edilmesi gibi konulara odaklanılır.

Bu sebeple başarılı Makine Öğrenimi projelerini hayata geçirebilmek için CRISP-DM gibi veri bilimi yaşam döngülerini yönetme konusunda kabul görmüş bazı metodolojilere ve özetle iş birliğini, sürdürebilirliği baz alan MLOps kavramına hakim olmak ve elbette bu bilgileri projelerimize uygulayabilecek araçlara sahip olmak gerekir.

İşte tam da bu noktada Azure ML hizmeti karşımıza çıkıyor ve bize başarılı bir uygulama sahası sunuyor.

Bu bulut hizmetinin Makine Öğrenimi projelerinde işlerimizi nasıl da kolaylaştırabileceğine hizmetin bileşenlerini incelerken değinelim.

Azure ML Bileşenleri Neler?

Azure ML hizmetini aktif ettiğimizde her şeyi kapsayan bir Workspace oluşur. Çalışma ortamı içerisindeki bileşenleri yönetmek için Azure Machine Learning Studio ortamına geçiş yaparız.

Soldaki menüde yer alan gruplamaya sadık kalarak Azure ML hizmetinin bileşenlerini ve özelliklerini inceleyelim.

Authoring Bölümü

Bu bölüm geliştirme odaklı yardımcılara ayrılmış durumda. Kod, arayüz veya sihirbaz yardımıyla geliştirmeye başlayabilirsiniz.

Notebooks: Bu bölümde herhangi bir dildeki scriptlerinizi depolayabilir ve çalıştırabilirsiniz. Eğer tüm makine öğrenimi sürecini scriptlerle yönetmek istiyorsanız ve scrtipleri çalıştırmak için bir makine yatırımı yapmamışsanız, bu bölümü kullanabilirsiniz.

Notebook, VSCode, RStudio, Terminal vs. gibi uygulamalar ile düzenleyebildiğimiz scriptleri AzureML Spark Compute (şimdilerde preview durumda) üzerinde çalıştırabilirsiniz. Dilerseniz ihtiyaçlarınıza cevap verebilecek kapasitede yeni bir Compute Instance oluşturup ek uygulamalar yükleyerek (Docker Image yardımıyla) compute içeriğini zenginleştirebilirsiniz.

Automated ML: Makine öğrenimi sürecinde problem tipi belirlendikten sonra verinin hazırlanması Feature Engineering, Feature Selection gibi çalışmalarla kullanışlı hale getirilmesi ve ardından Train, Validation, Test olarak bölümlendirilmesi gerekir. Sonrasında sahadaki ihtiyaca ve maliyetlere göre tahmin başarısını ölçebileceğimiz bir hedef metrik belirlenmesi, ardından bu hedefe uygun çıktının elde edilebilmesi için Makine Öğrenimi algoritmalarının veriye uygulanması ve sonrasında algoritmaların hyperparameterlerinin optimize edilmesi gerekir. Bu süreç her ne kadar uzman görüşü ile yönetilse de çoğunlukla deneme yanılma şeklinde ilerler.

İşte bu noktada orta seviye veri bilimcilerinin görevini üstlenebilecek, ileri seviye veri bilimcilerinin de işlerini kolaylaştıracak olan Automated ML Job sihirbazını devreye alabilirsiniz. Adım adım hedef ve kısıtlarınızı belirtip model eğitme denemelerini tetikleyebilir, sonrasında her deneme hakkında detaylı bilgiye, değerlendirmeye ve eğitilmiş modele ulaşabilirsiniz.

Designer: Satır satır kod yazmak uzun vadede iyi bir seçenek olsa da kısa vadede çıktı üretmek için ara yüzleri kullanmak daha cazip olabilmektedir. Bazen kod karmaşasına boğulmadan hızlıca bir sonucu ulaşmayı arzularız. Belki iyi bilinen, belki fazla yatırım yapmak istemediğimiz bir problemi çözmek, bir prototip geliştirmek veya sadece keşif amaçlı bir makine öğrenimi çalışması yapmak isteyebiliriz.

Bu bölümde önceden hazırlanmış bazı işlevsel kutucukları sürükle bırak ile bir birine bağlayabilir bir iş akışı oluşturabiliriz.

Designer menüsündeki Classic prebuilt tabında veri hazırlama, model geliştirme ve modelin web service olarak yayınlanması gibi bir çok konuda hazır işlevler mevcut. Şimdilerde artık Custom tabı ile kendi işlevsel kutucuklarımızı (Component) hazırlayabilme ve özel akışlar oluşturma imkanına da kavuşmuş durumdayız.

Assets Bölümü

Makine Öğrenimi nesneleri ve projelerin sağlıklı şekilde yürütülebilmesi için gerekli olan nesneleri ilgili alt bölümlerde kaydedebilir, versiyonlayabilir daha sonra ulaşıp kullanabiliriz.

Data: Azure ML hizmeti veri depolanabilecek diğer Azure hizmetlerine (Blob Storage, Azure SQL vs.) ait bağlantıyı Datastore adıyla kullanıma sunmaktadır. Datastore üzerinden veri kaynaklarına erişebilirsiniz. Ek olarak verilerinizi Tablo, File veya Folder şeklinde Azure ML hizmetine kaydedebilir verideki değişimi takip etmenizi sağlayacak Data Drift Detector tanımlayabilirsiniz.

Jobs: Daha önce bu menünün olduğu yerde Experiment mevcuttu. Sanırım odaklanma daha kolay olsun diye artık direk jobları ana menü olarak görmekteyiz.

Normalde bir Experiment oluşturulur ve tüm çalışabilecek şeyler (Script, AutoML, Hyperdrive, Pipeline vs) bu Experiment'a gönderilir (Submit). Bu çalışmalar bir job nesnesi olarak görüntülenebilir. Hatta bu jobların çalışma esnasındaki (run) hallerini de ayrı bir nesne olarak ele alabiliriz.

Jobların çalışma sırasındaki ve sonrasındaki durumu, ortaya çıkan nesneler, metrikler ve bir takım değerlendirmeler anlık olarak takip edilebilir.

Components: Designer bölümündeki Custom tabında kullanabileceğiniz özel işlevlerinizi buraya kaydedebilirsiniz. Component oluşturmak için Python SDK v2 veya Azure ML CLI v2 kullanmanız gerekli. Componentleri bir yapboz parçası gibi tekrar tekrar farklı akışlar içerisinde kullanabilmek oldukça işlevsel.

Pipelines: Veri temizliği, model eğitme, scorelama gibi bağımsız ve anlamlı iş akışlarınızı Designer bölümünde arayüzle veya scriptlerle oluşturup bu bölüme kaydedebilirsiniz. İş akışlarını daha sonra bir tetikleyici (Schedule, Alert, REST API vs.) ile tetikleyebilirsiniz.

Environments: Çalışan her şey için bir compute gücü gerekiyor. Bu compute üzerinde hangi işletim sisteminin kullanılacağı, hangi ayarların yapılacağı, hangi scriptlerin çalıştırılacağı, hangi uygulamaların ve paketlerin kurulu olacağı belirlenebilmektedir. Bu şekilde çalışacak şeyler için gerekli olan Docker imageın nasıl inşa edileceğini tarif etmiş oluyoruz.

Scriptlerin, Jobların ve web servicein çalıştırılacağı ortamın tarif edilebilmesi için Dockerfile ve Conda Specification dosyaları (yaml formatında tanımlar içerir) kullanılır. İşte bu tarif Environments nesnesi olarak kaydedilebilir.

Bazı Environmentlar Microsoft tarafından önceden kaydedilmiş olsa da zamanla yenilerine ihtiyaç duyarız.

Models: Eğitilen makine öğrenimi modellerinin kaydedildiği bölümdür. Modelleri versiyonlayabilir, model hakkında metadata depolayabilir, dilediğinizde modeli bilgisayarınıza indirebilirsiniz.

Endpoints: Makine öğrenimi çalışmaları sonucunda elde edilen modellerin başarısından eminseniz artık modeli kullanıma açmak isteyebilirsiniz. Modeli son kullanıcıya ulaştırmak için bir web service inşa etmek en yaygın yöntemdir. Bu web servicee gelen isteğin nasıl tahminleceğini (Score) ifade eden bir script dosyasına ve bu dosyanın çalışacağı ortamı belirtmek için bir Environment nesnesine ihtiyaç duymaktayız.

Genel olarak iki farklı tahminleme ihtiyacı ile karşılaşıyoruz;

İlki muhtemelen bir satırlık küçük bir veri ile yapılan tahminlemedir. Mesela acil servise gelen bir hasta hakkında bir kaç kolonluk özet bilgi ile kalp krizi geçirme ihtimalini tahmin etmek isteyebilirsiniz. Bu çıkarımsal çalışmaya Real-Time Inference denir.

İkincisi daha fazla satırla yani yığın halindeki veri ile yapılan tahminlemedir. Mesela günlük veya haftalık hasta kayıtlarına bakılarak bir segmentasyon yapmak veya bu hastaların şeker hastası olma ihtimalini tahmin etmeye çalışmak isteyebilirsiniz. Bu çıkarımsal çalışmaya Batch Inference denir.

Batch Inference yığın halindeki veri ile yapıldığı için daha büyük bir compute gücüne ihtiyaç duyulur. Muhtemelen bu iş için eğitimde kullandığınız bir clusteri tercih etmek istersiniz.

Real-Time inference için Container Instance (Test amaçlı), Azure Kubernetes Service veya Managed seçenekleri sunulur. Son kullanıcının talep yoğunluğunu yönetebilmek için otomatik veya elle ölçeklendirme ve trafiğin yeni modelle eski model arasında paylaştırılması gibi yeteneklere yer verilmiştir.

Manage Bölümü

Bu bölümde çalışacak her şeyin arkasında yer alan makine gücünü yani Computeleri oluşturup yöntebiliyor, Azure ML hizmetinin bağlanabileceği hizmetleri belirtiyor, bir resim ve metin etiketleme projesi geliştirebiliyoruz.

Compute: Bu bölümde scriptleriniz, joblarınız ve web serviceleriniz için gerekli olan işlemci gücünü yönetebilirsiniz.

Notebook veya scriptlerinizi çalıştırmak gibi bir nedenden dolayı tek bir makineye ihtiyaç duyduğunuzda Compute Instance oluşturabilirsiniz.

Model eğitmek veya Batch Inference gibi yoğun işlemler için yatay ölçeklendirme ihtiyacı doğmaktadır. Bu ihtiyaca cevap vermek için Compute Cluster oluşturabilirsiniz.

Real-Time inference için bir web service yayınlanır. Bu web service hizmetinin ihtiyaç halinde ölçeklenebilmesi için Kubernetes Cluster oluşturabilirsiniz.

Eğer daha önce Azure üzerinde bir HDInsight cluster, Sanal Makine veya Databricks cluster oluşturmuş iseniz bu gücü Attach Compute bölümündeki tanımlama ile Azure ML için de kullanabilirsiniz.

Linked Services: Azure ML çalışma ortamının erişebileceği diğer Azure hizmetleri burada tanımlanabilir. Mesela Synapse Analytics hizmetini Azure ML'e entegre edebilirsiniz.

Data Labeling: Resim ve metin işleme çalışmalarında en çok zaman alan aşamalardan herhalde en uzunu etiketleme aşamasıdır. Bu bölüm birden fazla kişinin etiketleme projesi yürütebilmesi için ideal bir çalışma ortamı sunmaktadır. Ayrıca bazı ek yeteneklerle bu tarz projelerin konforu her geçen gün artmaktadır.

Dahası var mı?

Azure ML hizmeti diğer bazı Azure hizmetlerinden de destek alır. Bunların bazıları; Docker imagelarının kaydedilmesi için Container Registry, test amaçlı container hizmeti için Container Instance, monitorlemek için Application Insight, logların kaydedilmesi için Azure Blob Storage, şifre ve sertifikaların depolanması için Key Vault, sürekli entegrasyon ve sürekli geliştirme süreçlerinin kurulması için GitHubs ve Azure DevOps hizmetleridir.

Ayrıca Spark tarafında yaygın şekilde kullanılan MLFlow gibi makine öğrenimi yaşam döngüsünü yönetmeyi sağlayan açık kaynak platformları da destekleyip Spark ML ile Azure ML arasında doğal bir entegrasyonu da mümkün kılar.

Azure ML Bileşenlerini Nasıl Kullanabilirim?

Azure ML hizmetini Azure ML Studio ile büyük oranda kullanabilirsiniz. Fakat tüm yeteneklerin kilidini açmak için Azure ML SDK'lar ile çalışmanızı gerekir.

Azure ML SDK'larla ilgili bir değişimin olduğu dönemdeyiz. Bu serüven hakkında kısa bir bilgi vereyim.

Azure ML bileşenlerini scriptler ile yönetmek için Python SDK, Azure CLI veya R SDK kullanıyorduk. R SDK 2021 sonu itibari ile artık desteklenmiyor. Bu haber R dili ile Azure ML üzerinde çalışmayacağınız anlamına gelmiyor. Sadece Azure ML hizmetinin bileşenlerini R dili ile artık yönetemeyeceğiniz anlamına geliyor.

Python ve Azure CLI desteği versiyon 1 olarak hala kullanımda ve ne zaman desteğin kesileceğine dair herhangi bir açıklama şu aralar mevcut değil. Fakat yeni bir Python SDK ve Azure CLI için ML extension duyurusu versiyon 2 olarak yapıldı ve genel kullanıma açıldı. Tüm yeniliklerin bu yeni yaklaşım üzerinden kullanılabilir olacağı belirtildi.

Python kullanıcıları SDK v1'e göre daha kolay bir yaklaşımla Python SDK v2'yi kullanabilir. Python yazmadan diğer dillerle makine öğrenimi yapmak isteyen geliştiriciler tüm Azure ML yetneklerini Azure ML CLI v2 ile benzer mantıkta komut satırından yönetebilir.

Azure ML CLI v2 kullanımı Visual Studio Code'un Azure Machine Learning bileşeni ile çok daha kolay hale geliyor. Tüm Azure ML yeteneklerini yaml dosyaları halinde tarif edebilir, VS Code ile Azure ML CLI v2 komutlarının bu yaml dosyalarını Workspacee iletmesini sağlayabilirsiniz.

Yukarıda bahsi geçen bileşenler ve komut desteğini göz önüne aldığımızda Azure Machine Learning hizmeti uçtan uca Makine Öğrenimi projelerini hayata geçirebilmek konusunda sınıf atlatacak nitelikte olduğunu söyleyebiliriz.

Eğer daha yakından bakarsanız çok daha fazlasının olduğunu görebilirsiniz. Koddaki, modeldeki ve verideki değişimin takip edilip bir sürecin tetiklenebilmesi, modellerin ölçeklenebilir compute gücü ile eğitilmesi, eğitilmiş modellerin versiyonlanarak web serviceler şeklinde son kullanıcıya yayınlanması ve talep trafiğinin yönlendirmesi gibi görünen ihtiyaçlara cevap verdiği gibi mahremiyet ve adalet gibi bazı etik ve kanuna dayalı görünmeyen ama baş ağrıtabilecek konularda da çözümler sunmaktadır.

Makine öğrenimi çalışmaları sonucu ortaya çıkabilecek ihlallerin, adaletsizliğin belirlenebilmesi ve modelin açıklanabilmesi çoğu zaman göz ardı edilir. Bu konudaki bir ihmal para ve imaj kaybına sebep olabilir. Kanunlara göre hapis cezası ile bile sonuçlanabilir.

Bu konularla ilgili Azure ML hizmeti üzerindeki yeteneklerin bir kısmı şu aralar her ne kadar preview aşamasında olsa da tatmin edici sonuçlar elde etmek ve gerekli önlemleri alabilmek pekala mümkün.

Azure ML Hizmeti işin anlaşılmasından, eğitilmiş modelin yayınlanmasına kadar geçen tüm ML sürecini yönetebilme, veri bilimcisinin etik ve kanuni sorumluluklarını yerine getirebilme ve değişen talepler için dinamik compute gücü sağlama konusunda etkileyici çözümler sunuyor.

Azure Machine Learning hizmetini, makine öğrenimi projeleriniz için bir doğal yaşam alanı haline getirmeniz müşterilerinize, firmanıza ve ekiplerinize rahat bir nefes aldıracaktır.