Yapay zeka araştırmacılarının veri toplama yolları

image

Verileri yapay zekanın gelişimini sağlayan besinler gibi düşünebilirsin. Ve bu besinler günlük hayatında sıkça kullandığın ya da karşılaştığın ve yapay zeka ile çalıştığını belki de hiç fark etmediğin birçok ilerlemeyi sağlar: YouTube altyazıları, Spotify müzik önerileri ve internette sürekli karşına çıkan reklamlar gibi.

İşe yarar verileri toplamak söz konusu olduğunda ise yapay zeka uzmanlarının genellikle epey bir yaratıcı olması gerekir. Mesela bilgisayarlara insan dilini nasıl ayrıştıracaklarını öğretmeye odaklanan bir yapay zeka alt alanı olan doğal dil işlemeyi (NLP) ele alalım. Her sene düzenlenen “NLP'de Deneysel Yöntemler Konferansı”nda uzmanlar, ustaca yöntemlerle toplanan bilgilerden yararlanan geniş bir araştırma yelpazesi sunarlar. İşte bunlardan bazıları:

Spanglish

Çok dilli NLP ile ilgili makaleler arasında, Microsoft bu sene, iki dil arasında akıcı bir şekilde geçiş yapan metin veya konuşma fark etmeksizin "karışık kod dili" işlemeye odaklanan bir makale sundu. Dünya nüfusunun yarısından fazlasının çok dilli olduğu düşünüldüğünde, bu yeterince çalışılmamış alan büyük bir önem taşımakta.

Araştırmacılar işe Spanglish (İspanyolca ve İngilizce kelimelerin karşımı) ile başladı, ancak makineyi eğitmek için yeterli Spanglish metninden yoksunlardı. Kod karıştırma çok dilli konuşmada yaygınken, metinde ise nadiren bulunur. Bu zorluğun üstesinden gelmek için, araştırmacılar İngilizceyi Microsoft Bing çeviri uygulamasına yerleştirmek için bir program yazdılar ve bazı ifadeleri de İspanyolca ile değiştirdiler. Program, değiştirilen kelime ve cümlelerin aynı anlama sahip olmasını sağladı. Ve bu sayede araştırmacılar ihtiyaç duydukları kadar Spanglish yaratabildiler.

Ortaya çıkan bu NLP modeli, sadece İspanyolca ve İngilizce için ayrı ayrı eğitilen önceki modellerden daha iyi performans gösterdi. Araştırmacılar, çalışmalarının nihayetinde akıcı olarak konuşabilen çok dilli sohbet robotlarının geliştirilmesine yardımcı olacağını umuyorlar.

Yemek kitapları

Yemek tariflerinin hepsi benzer bir adım adım açıklama modeli içerir ve genellikle metne karşılık gelen resimler içerirler. Bu nedenle, Hacettepe Üniversitesi'ndeki araştırmacılar, yaklaşık 20.000 resimli yemek tarifi içeren dev bir veri seti derlediler ve ”RecipeQA” olarak adlanladırdıkları bu çalışmanın aynı anda görüntü ve metin anlayışının performansını kıyaslamak için yeni bir kaynak olacağını umuyorlar.

Çalışma, makinelerin ayrı ayrı metni anlama ve görseli anlamaya odaklanan önceki araştırmaların üzerine inşa edilecek. İlk çalışmada, makinenin cevabı bulmak için bir soruyu ve ilgili bir bölümü anlaması gerekiyordu; şimdiki çalışmada ise yanıtı ilgili bir fotoğrafta arıyor. Metin ve fotoğrafların yan yana olması, görevin karmaşıklığını artırıyor çünkü fotoğraflar ve metinler, birbirini tamamlayıcı veya alakasız bilgileri içeriyor olabilir. Burada da ayrımı yapmak yapay zekaya kalıyor. :)

Daha kısa cümleler

Google, yapay zekanın kullanıcı metinlerini daha düzgün hale getirebilmesini istiyor. Bu amaçla, araştırmacılar uzun cümleleri eşdeğer anlamdaki daha küçük cümlelere ayırmak için şimdiye kadarki en büyük veri setini oluşturdular. Peki bu kadar büyük miktarda düzenlenmiş metin verisini nerede bulunur? Elbette Wikipedia’da.

Araştırma ekibi, Wikipedia’nın zengin düzenlenmiş metin geçmişinden insanların uzun cümleleri böldüğü örnekleri çıkardı. Sonuç: 60 kat daha fazla farklı cümle bölme örneği ve bu görev için önceki karşılaştırma veri setinde bulunandan 90 kat daha fazla kelime. Bu veri seti ayrıca birden çok dili de kapsıyor.

Yeni verileri ile bir makine öğrenimli modeli eğittiklerinde, bu model %91 doğruluğa ulaştı. Buradaki yüzde, yeniden yazıldıktan sonra anlamını ve dilbilgisi olarak doğruluğunu koruyan cümlelerin oranını yansıtıyor. Karşılaştırıldığında, önceki verilerle eğitilmiş bir model yalnızca %32 doğruluğa ulaşmıştı. Her iki veri setini birleştirip başka bir modeli eğittiklerinde ise %95 doğruluk elde edildi. Araştırmacılar, daha fazla veri kaynağı bularak gelecekteki iyileştirmelerin yapılabileceğini düşünüyorlar.

Akbank Kariyer sitesindeki tüm içerikler bilgilendirmeye yöneliktir ve kişiye özel çözüm özelliği taşımamaktadır. Burada sunulan bilgilerin kesin doğruluğu garanti edilmemektedir. Bu sitedeki bilgiler konunun uzmanına danışmadan uygulanmamalıdır.