Denetimli ve Gözetimli Öğrenme Nedir? Supervised Learning Genel Bakış

denetimli-ve-gozetimli-ogrenme-nedir

Denetimli öğrenme, modellerin doğru tahminler yapmasına yardımcı olmak için etiketli eğitim verilerini kullanan makine öğreniminin en yaygın uygulanan dallarından biridir. Buradaki eğitim verileri makineler için bir gözetmen ve öğretmen görevi görür, dolayısıyla adı da buradan gelir. Benzer bir metodoloji, görüntü sınıflandırma, spam filtreleme, risk değerlendirmesi, dolandırıcılık tespiti gibi gerçek dünyadaki zorlukların çözülmesinde etkilidir.

Makine Öğrenimi Nedir?

Makine öğrenimi, bilgisayarların açıkça programlanmadan deneyimlerden öğrenmesini ve gelişmesini sağlayan bir yapay zeka alt kümesidir. Bir programcının belirli bir görevi yerine getirmek için kod yazdığı geleneksel programlamanın aksine makine öğreniminde sistem, verileri analiz etmek ve zaman içinde performansını artırmak için istatistiksel algoritmalar kullanır.

Makine öğrenimi algoritmaları verilerdeki kalıpları ve ilişkileri tanımlayabilir, tahminlerde bulunabilir ve bu verilere dayanarak kararlar alabilir. Bu yaklaşım, önceden belirlenmiş kurallara, algoritmalara ve sezgisel yöntemlere dayanan ve yeni verilere veya değişen koşullara uyum sağlamayan geleneksel bilgisayar programlamasından farklıdır. Bilgisayarlara verilen basit görevler için, makineye eldeki sorunu çözmek için gereken tüm adımları nasıl yürüteceğini söyleyen algoritmalar programlamak mümkündür; bilgisayar açısından öğrenmeye gerek yoktur. Daha gelişmiş görevler için bir insanın gerekli algoritmaları manuel olarak oluşturması zor olabilir. Makine öğrenimi programları, açıkça programlanmadan da görevleri yerine getirebilir.

Bulutistan hizmetlerinin detaylarına ulaşmak için tıklayınız.

Makine Öğrenimi Modellerinin Türleri

Makine öğrenimi algoritmaları amaçlarına ve benzerliklerine göre gruplandırılır. Kategorileri tanımlamak söz konusu olduğunda görüşler ayrılır, ancak genel olarak dört tür makine öğrenimi türü vardır:

  • Denetimli öğrenme
  • Denetimsiz öğrenme
  • Yarı denetimli öğrenme
  • Pekiştirmeli öğrenme

Kısaca, denetimli öğrenmenin tahmin problemleri için denetimsiz öğrenmenin verilerin yapısını anlamak için ve pekiştirmeli öğrenmenin karmaşık durumlarda karar vermek için kullanıldığını söyleyebiliriz.

Denetimli Öğrenme Nedir?

Makine öğrenimine yönelik küresel pazarın 2024 yılına kadar %42 yıllık bileşik büyüme oranı (CAGR) ile genişlemesi beklendiğinden, temel bir makine öğrenimi metodolojisi olarak denetimli öğrenme her zamankinden daha önemli hale gelmektedir. Hedef değişken için istenen sonuçları elde etmek üzere verileri eyleme geçirilebilir içgörülere dönüştürme yeteneği, giderek artan sayıda sektöre fayda sağlamaktadır.

Denetimli öğrenme, denetimli makine öğrenimi ile aynı şekilde, veri geliştirmeye ve geçmiş deneyimlerden (etiketli veriler) bir çıktı üretmeye dayanır.

Bu, girdi verilerinin etiketli örneklerden oluştuğu anlamına gelir: her veri noktası bir veri örneği (girdi nesnesi) ve hedef etiket (tahmin edilmek istenen) çiftidir.

Denetimli öğrenmede, bir girdi değişkeni bir makine öğrenimi modeli tarafından öğrenilen bir eşleme fonksiyonu yardımıyla bir çıktı değişkenine eşlenir. Denetimli bir öğrenme algoritması eğitim verilerini analiz eder ve yeni örnekleri eşlemek için kullanılabilecek bir çıkarım işlevi üretir.

Bu, öğrenme algoritmasının eğitim verilerinden görülmeyen durumlara “makul” bir şekilde genelleme yapmasını gerektirir. Bir algoritmanın bu istatistiksel kalitesi, genelleme hatası olarak adlandırılan değerle ölçülür. Test verilerinin amacı, etiketlenmemiş veri kümeleri üzerindeki genelleme hatasını tahmin etmektir.

Elbette tüm bunlar, makine öğrenimi modeline kaliteli eğitim verileri sağlandığında mümkündür. İkincisi, model performansında ciddi iyileşmelere yol açarak size rakiplerinize karşı önemli bir avantaj sağlayabilir.

Denetimli öğrenme modelinin eğitim verilerini biriktirme ve performans kriterlerini kullanma becerisi önceki deneyimlerden kaynaklandığından, aynı veriler gelecekteki olayları tahmin etmek ve mevcut eğitim verilerini iyileştirmek için kullanılır.

Bir anlamda, denetimli öğrenme süreci etiketli eğitim verilerinin toplanması ve hazırlanmasıyla başlar ve bu veriler bir kez toplandıktan sonra etiketli veriler farklı gruplara/versiyonlara ayrılır.

Denetimli Öğrenme Algoritmaları

Denetimli öğrenme algoritmalarının amacı, kullanıcının nihai sonuca ulaşmasına yardımcı olmak için hangi adımların atılması gerektiğini anlamaktır. Denetimli öğrenme temel olarak regresyon ve sınıflandırma olmak üzere iki genel sorun türünü ele aldığından, bir dizi farklı denetimli öğrenme modeli türü vardır. En yaygın olanlardan bazıları aşağıdaki şekildedir:

Doğrusal regresyon

Çoğu durumda, doğrusal regresyon hem makine öğreniminde hem de istatistikte en popüler ve basit algoritmalardan biri olarak kabul edilir. Temel olarak gelecekteki sonuçları tahmin etmek için kullanılan doğrusal regresyon denetimli öğrenme algoritması, herhangi bir değişken arasındaki bağlantıyı açıklamak için eğimli bir düz çizgi sunarak bağımlı bir değişken ile bir veya daha fazla diğer bağımsız değişken arasındaki bağlantıyı tanımlamak için kullanılır. Basitleştirmek gerekirse, doğrusal regresyon tahminsel analiz için kullanılan istatistiksel bir prosedürdür; satışları, ürün fiyatlandırmasını, yaşı vb. tahmin etmek için kullanılır.

Tek bir bağımsız değişken ve tek bir bağımlı değişken olduğunda, basit doğrusal regresyon olarak adlandırılır ve bağımsız değişkenler eklendiğinde, süreç çoklu doğrusal regresyon haline gelir.

Lojistik regresyon

Doğrusal regresyona benzer şekilde lojistik regresyon modelleri de veri girdileri arasındaki ilişkileri tanımaya çalışır. Lojistik regresyon temel olarak spam tanımlama dahil olmak üzere ikili sınıflandırma sorunlarını çözmek için kullanılır ve bağımlı değişkenin evet ve hayır veya doğru ve yanlış gibi ikili çıktılara sahip olduğu durumlarda yaygın olarak kullanılır. Sürekli ve ayrık veri kümelerine atıfta bulunarak olasılıkları bulma ve yeni verileri kategorize etme yeteneği nedeniyle uygun sınıflandırma algoritmalarından biri olarak kabul edilir.

Destek vektör makinesi

Destek vektör makinesi hem veri regresyonu hem de sınıflandırma için kullanılır, ancak çoğunlukla sınıflandırma sorunlarını çözmek için kullanılır. Sınıflandırma sorunlarıyla karşılaşıldığında, bu denetimli öğrenme algoritması karar sınırı olarak da bilinen bir hiper düzlem oluşturur; düzlemin her iki tarafındaki iki veri noktası sınıfını ayırır.

Destek vektör makinesi, destek vektörleri olarak da bilinen uç vektörleri seçer ve bunlar hiper düzlemin oluşturulmasına yardımcı olur. Doğrusal olarak ayrılabilen veriler için kullanılan doğrusal destek vektör makinesi ve doğrusal olarak ayrılamayan verilerle çalışırken başvurulan doğrusal olmayan destek vektör makinesi olmak üzere iki tür destek vektör makinesi vardır.

Sinir ağları

Sinir ağları, insan beyninin yapısına ve işlevine benzeyen bir tür makine öğrenimi algoritmasıdır. Bilgileri işleyen ve tahminlerde bulunan birbirine bağlı düğümlerden veya yapay nöronlardan oluşurlar.

Sinir ağları, görüntü ve konuşma tanıma, doğal dil işleme ve karar verme dahil olmak üzere çok çeşitli görevler için kullanılabilir.

Sinir ağlarının en güçlü yönlerinden biri, ağın giriş verilerine göre ağırlıklarını ve önyargılarını ayarladığı bir eğitim süreci aracılığıyla zaman içinde öğrenme ve iyileştirme yetenekleridir. Bu, sinir ağlarının verilerdeki karmaşık, doğrusal olmayan ilişkileri ele almasına ve doğru tahminler yapmasına olanak tanır.

Bununla birlikte, sinir ağlarının tasarlanması ve eğitilmesi zaman alıcı ve hesaplama açısından zor bir süreç olabilir ve mimari, aktivasyon fonksiyonları ve optimizasyon algoritmalarının seçimi performanslarını büyük ölçüde etkileyebilir.

Derin öğrenme, çok katmanlı sinir ağları geliştirmeyi içeren makine öğreniminin bir alt alanıdır.

“Derin” olarak adlandırılır çünkü giriş ve çıkış katmanları arasında verilerin hiyerarşik temsilini öğrenmeye yardımcı olan gizli katmanlar vardır. Bu, derin öğrenme algoritmalarını, verilerin genellikle karmaşık bir yapıya sahip olduğu ve üst düzey özelliklerin alt düzey özelliklerden öğrenilebildiği görüntü sınıflandırma, konuşma tanıma ve doğal dil işleme gibi görevler için uygun hale getirir.

Derin öğrenme algoritmaları birçok alanda son teknoloji ürünü sonuçlar elde etmeyi başarmıştır ve şu anda sürücüsüz arabalardan tıbbi teşhise kadar geniş bir uygulama yelpazesinde kullanılmaktadır.

Derin öğrenme, veri bilimcilerin model oluştururken dikkate alması gereken zorluklarla da karşı karşıyadır. En büyük zorluk, genellikle yüksek maliyetli olan büyük eğitim verilerine ve bilgi işlem kaynaklarına ihtiyaç duyulmasıdır. Ayrıca, son derece karmaşık modeller eğitilirken genellikle aşırı uyum riski vardır. Bununla birlikte, donanım ve algoritmalardaki gelişmeler, derin sinir ağlarının devasa veri kümeleri üzerinde eğitilmesini mümkün kılarak derin öğrenmede sürekli büyümeye ve başarıya yol açmıştır.

Karar ağaçları

Karar ağacı, hem regresyon hem de sınıflandırma problemlerini çözmek için kullanılan en popüler denetimli makine öğrenimi algoritmalarından biridir.

Verileri daha küçük alt kümelere bölen ve girdi özelliklerine dayalı bir dizi kararı takip ederek bir tahminde bulunan ağaç tabanlı bir modeldir. Ağaçtaki her bir düğüm, özelliklerden biri üzerindeki bir testi temsil eder ve dallar bu testin sonucunu temsil eder.

Dalların sonu bir tahmin veya bir sınıf etiketi ile temsil edilir.

Karar ağaçlarının en güzel yanı, makine öğrenimi konusunda uzman olmayan kişiler için bile anlaşılması ve yorumlanmasının kolay olmasıdır. Ayrıca hem kategorik hem de sayısal verileri işleyebilirler, bu da onu daha popüler ve çok yönlü hale getirir.

En ünlü yaklaşım, karar ağaçlarını rastgele orman veya gradyan artırma gibi topluluk algoritmalarında kullanmaktır.

Karar ağaçlarının aykırı değerlere ve eksik değerlere karşı sağlamlığını da göz ardı etmemeliyiz; bu, aykırı değerlerden etkilenebilecek verilere düzgün bir eğri uydurmaya çalışmak yerine her düğümde ikili bölmelerden kaynaklanmaktadır.

K-en yakın komşular

K-en yakın komşu (KNN), hem sınıflandırma hem de regresyon problemlerini çözmek için kullanılan yaygın olarak kullanılan basit ama güçlü bir makine öğrenimi algoritmasıdır. KNN, veri noktasını en yakın K komşu noktasına göre sınıflandırmakla ilgilidir.

Algoritma, mevcut tüm verileri depolayarak ve ardından yeni bir veri noktası için bu depodaki mesafe açısından kendisine en yakın K veri noktasını bularak çalışır. Tahmin daha sonra, çözmeniz gereken soruna bağlı olarak, K en yakın komşunun çoğunluk sınıfına veya değerlerinin ortalamasına dayanır.

KNN’nin avantajları kolay uygulanması ve nispeten düşük hesaplama maliyetleridir, bu da onu görüntü ve konuşma tanıma, tıbbi teşhis, finans ve diğer birçok alandaki uygulamalar için kullanışlı bir seçim haline getirir. Bununla birlikte, K seçiminden ve uzaklık metriği türünden etkilenebileceğinden doğruluğu konusunda dikkatli olmanız gerekir.

Denetimli Öğrenme ve Alternatifleri

Modeller sadece etiketli verilere dayanarak öğrenmez. Bu noktada denetimsiz makine öğrenimi devreye girer.

Denetimli bir öğrenme modeli etiketli girdi ve çıktı verilerini kullanıyorsa, denetimsiz bir öğrenme algoritması etiketsiz verilerin yapısını keşfetmek için kendi başına çalışır.

Denetimsiz öğrenme, uzmanların verilerde ne arayacağı konusunda hiçbir fikri olmadığında işe yarar. Denetimli öğrenmenin aksine, açıklayıcı modelleme ve örüntü algılama gibi daha karmaşık görevler için en uygun yöntemdir.

Denetimsiz Öğrenme

Denetimsiz öğrenme hakkında bilinmesi gerekenler aşağıdaki şekildedir:

  • Denetimsiz öğrenme, bir veri kümesindeki bilinmeyen örüntüleri bulmak için özellikle yararlıdır.
  • Kategorizasyon için gereken özelliklerin bulunmasına yardımcı olur.
  • Resimlerinizin, videolarınızın veya sağlanan herhangi bir verinin açıklamalı veya etiketli olması gerekmez.
  • Denetimsiz öğrenme, ham girdi verilerini nasıl analiz ettiğine tanık olabilecekleri için özellikle veri bilimi alanında yeni başlayanlar için yararlıdır.

Yukarıda bahsedilenlerle birlikte, denetimli ve denetimsiz öğrenme modelleri arasındaki temel farklardan birinin algoritmalarının eğitilme şekli olduğu söylenebilir. Denetimli öğrenme modellerinin verileri keşfetme ve elde etme şekli oldukça basittir, çünkü bunu yapma özgürlüğüne sahiptirler. Denetimsiz öğrenme algoritmaları ise eğitim seti olarak etiketlenmemiş verilerle uğraşırlar.

Denetimsiz makine öğreniminde çıktı bilinmediğinden, eğitim daha karmaşık hale gelir, ayrıca çok sayıda sınıflandırılmamış veri kümesiyle çalışması ve bunlardaki yeni örüntüleri tanıması gerekir.

Burada, denetimsiz öğrenmenin iki ana bölümünü kısaca açıklayabiliriz: kümeleme ve ilişkilendirme.

Kümeleme, kategorize edilmemiş bir veri koleksiyonunda bir örüntü bulmayı gerektirir. Kümeleme algoritmaları verileri işler ve verilerde var olan doğal kümeleri bulur. Bilgisayarla görme mühendisleri, algoritmanın kaç küme tanımlaması gerektiğini de değiştirebilir. Bu kümelerle ilgili her türlü ayrıntı buna göre ayarlanabilir.

İlişkilendirme tekniği, büyük veri tabanlarındaki değişkenler arasında var olan ilişkileri bulmakla ilgilidir. Uzmanlar veri nesneleri arasında kolayca ilişki kurabilir. Örneğin, yeni bir ev satın alan bireylerin yeni mobilya satın alma olasılığı yüksektir.

K-ortalamalar kümeleme ve birliktelik kuralları yaygın denetimsiz öğrenme algoritması örnekleridir.

Yarı Denetimli Öğrenme

Önceki iki makine öğrenimi türünde, eğitime yardımcı olmak için ya etiketli ya da etiketsiz veriler vardır. Yarı denetimli makine öğrenimi bu iki teknik arasında yer alır.

Veri etiketleme, yüksek eğitimli insan kaynakları gerektiren pahalı ve zaman alıcı bir süreçtir. Bu bağlamda, etiketlerin çoğu gözlemde mevcut olmadığı, ancak sadece bir avuçta mevcut olduğu durumlar vardır ve bu, yarı denetimli makine öğreniminin devreye girdiği yerdir.

Yarı denetimli makine öğrenimi, girdi değişkenlerinin yapısını keşfederek ve öğrenerek denetimli ve denetimsiz öğrenme arasında kalan sorunları çözmeye çalışır.

Hem etiketli hem de etiketsiz görüntüler içeren bir fotoğraf arşivi örneğini ele alalım. Verilerin bir kısmı zaten etiketlenmiştir.

Yarı denetimli öğrenme kavramı oldukça basittir; kullanıcı tüm veri kümesine etiket sağlamak yerine verilerin küçük bir bölümünü manuel olarak etiketler.

Daha sonra, aynı etiketli veriler bir veri modeli olarak kullanılır ve bu model daha sonra büyük miktarda etiketsiz veriye uygulanır. Yarı denetimli öğrenme, az miktarda etiketli veri ve büyük miktarda etiketsiz veri ile çalışır, bu da manuel açıklama maliyetini en aza indirir ve veri hazırlama süresini kısaltır.

Pekiştirmeli Öğrenme

Pekiştirmeli öğrenme, ödülü en üst düzeye çıkaracak ve riski en aza indirecek şekilde hareket etmek için çevre ile etkileşimden elde edilen gözlemi kullanır. Bir algoritma olarak, tüm olasılıkları keşfedene kadar çevresini sürekli olarak inceler.

Pekiştirmeli öğrenme, başka hiçbir makine öğrenme algoritmasının yapamayacağı çeşitli karmaşık sorunları çözme yeteneğine sahiptir. Makinelerin maksimum performans elde etmek için belirli bir bağlamda ideal davranışı otomatik olarak belirlemesine olanak tanır.

Bu kategorideki yaygın algoritmalar arasında q-learning, temporal difference ve deep adversarial networks yer almaktadır. Bu algoritmalar otonom araçlar, robotik eller ve bilgisayarla oynanan masa oyunları gibi alanları kapsamaktadır.

Pekiştirmeli öğrenmenin faydalarından bazıları, bir sorunu birkaç küçük ölçekli soruna bölmek yerine bir bütün olarak odaklanmayı, doğrudan aracılarla ve çevresiyle olan etkileşimlerinden veri elde etmeyi ve farklı ortamlarda uyum sağlama ve çalışma yeteneğini içerir.

Pekiştirmeli öğrenme, en sıcak araştırma konularından biri olmaya devam ediyor ve henüz yaygın bir şekilde benimsenme yolunda ilerliyor.

Denetimli Makine Öğrenimi Algoritmalarının Avantajları

Denetimli öğrenme algoritmalarının avantajları aşağıdaki şekildedir: 

  • Tahmini doğruluk: Denetimli model büyük ve çeşitli etiketli veri kümeleri üzerinde eğitilirse, etkileyici yüksek tahmini doğruluk elde edebilir. Hedefiniz son derece doğru modellere sahip olmaksa ve elinizde uygun veri kümesi varsa, denetimli öğrenme modelleri genellikle iyi bir seçimdir.
  • Net hedefler: Denetimli öğrenme durumunda, eğitim verilerinin sınıfları ve değerleri bilinir ve girdileri çıktılarla eşleştirmenin net bir amacı vardır. Algoritmanın bu hedefe göre ne kadar iyi performans gösterdiğini analiz ederek, belirli bir görev için optimize etmek daha kolay hale gelir ve daha verimli bir problem çözme deneyimi sağlar.
  • Geniş uygulama yelpazesi: Denetimli öğrenme çok yönlüdür ve sınıflandırma, regresyon ve yapılandırılmış tahmin problemlerine uygulanmasına izin vererek çeşitli görevler için esnek bir yöntem haline getirir‍.
  • Uygulaması daha kolaydır: Denetimli öğrenme modellerinin uygulanması ve anlaşılması denetimsiz algoritmalara kıyasla genellikle daha kolaydır, bu da onu birçok uygulayıcı için daha erişilebilir bir seçenek haline getirir. Ayrıca, geniş bir algoritma havuzu mevcuttur.

Denetimsiz öğrenmenin verilerdeki gizli örüntüleri ortaya çıkarma yeteneği gibi kendi avantajları olsa da, denetimli öğrenme çoğu gerçek dünya problemini çözmek için hala çok daha yaygındır.

Bulutistan hizmetlerinin detaylarına ulaşmak için tıklayınız.

Denetimli Öğrenmenin Dezavantajları

Denetimli öğrenme ile ilgili temel sorun etiketli veriye duyulan ihtiyaçtır. Denetimli bir öğrenme algoritmasını eğitmek için, hem girdileri hem de ilgili çıktıları içeren büyük ve çeşitli etiketli bir veri kümesine ihtiyacınız vardır. Özellikle karmaşık görevler için bunu elde etmek zor ve zaman alıcı olabilir.

Bazen manuel ek açıklamalar olmadan veri bulabilirsiniz. Örneğin, arama motorları, öneri sistemleri, hisse senedi fiyatları veya banka temerrütleri. Bu veriler zaten etiketlenmiştir.

Ancak çoğu durumda bu tür etiketli verileri gerçek dünyada bulmak çok zor, hatta imkansızdır. Bu yüzden veriler manuel olarak etiketlenmelidir. Denetimli öğrenme tekniklerinin tüm dezavantajları bu gerçekten kaynaklanmaktadır.

  • Denetimli öğrenme modellerinin performansı büyük ölçüde sağlanan eğitim verilerinin kalitesine bağlıdır.
  • Denetimli makine öğreniminde büyük verileri etiketlemek zor ve zaman alıcıdır.
  • Test verilerinin dağılımı eğitim veri setinden önemli ölçüde farklı ise, denetimli makine öğreniminde doğru çıktıyı tahmin etmek son derece zordur.
  • Denetimli makine öğrenimi verileri kendi başına sınıflandıramaz.
  • Karmaşık metinleri tamamlayamaması, en büyük denetimli öğrenme sorunlarından biri olarak kabul edilir.
  • Denetimli öğrenme tüm bilgisini insan girdisinden elde ettiğinden, insan hatası olasılığı yüksek olabilir.
  • Manuel olarak açıklanan veriler üzerinde eğitilen modeller, eğitim veri setinde çeşitlilik eksikliğinden muzdarip olabilir ve bu da verilerin gerçek dağılımını yansıtmayan önyargılı modellere yol açabilir. Bu durum, yeterince temsil edilmeyen veya azınlık gruplarında düşük performansa neden olabilir.
Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Önceki Yazı

Bulut Yönetimi Nedir?

Sonraki Yazı

ITIL (BT Altyapı Kütüphanesi) Nedir?

İlgili Diğer Yazılar
İletişime Geçin
Kişisel Verilerin Koruması ile ilgili aydınlatma metnini okudum, bu kapsamda bilgilerimin işlenmesini ve saklanmasını kabul ediyorum.
İletişime Geçin
Bulut hizmetleri konusunda yardıma mı ihtiyacınız var? 30 günlük demo talebi için ekibimizle iletişime geçebilirsiniz
Kişisel Verilerin Koruması ile ilgili aydınlatma metnini okudum, bu kapsamda bilgilerimin işlenmesini ve saklanmasını kabul ediyorum.