• Can Duru

AI ile Canlı Alt Yazı Oluşturmak Mümkün mü?

İnternet çağı ile insanların elde ettiği ayrıcalıklar giderek artıyor. Hollanda’da yaşayan bir arkadaşımla istediğim zaman FaceTime yapabiliyorum veya sosyal medya platformları üzerinden nereleri gezdiğini görebiliyorum. Eski zamanlarda başka bir ülkedeki hatta başka bir şehirdeki arkadaşınıza mektup göndermeye çalıştığınızda cevabın elinize ulaşması ve iletişiminizi sürdürebilmek için günlerce bazen aylarca beklemeniz gerekiyordu. Bu durumlara baktığımız zaman teknolojinin şüphesiz birçok ayrıcalık ve yenilik getirdiğini söyleyebiliriz.

Peki, bu durum tüm insanlar için geçerli mi? Örneğin, duyma engelli bir insan bizim gibi istediği arkadaşıyla alt yazıyı desteklemeyen bir platform olan FaceTime’dan konuşabilir mi? Bunun cevabı maalesef hayır, teknoloji her ne kadar bazı insanları yakınlaştırıyor olsa da engelli bireylere iletişim kurma konusunda yeterince yardım sağlayamıyor.

Zoom’daki araştırmacılar tarafından geliştirilen alt yazı oluşturan yardımcı teknoloji
Zoom’daki araştırmacılar tarafından geliştirilen alt yazı oluşturan yardımcı teknoloji

Yapay Zekânın Değişimi

2021 yılının Mart ayında Google, “Canlı Alt Yazılar (Live Captions)” ismini verdiği teknolojisini Chrome tarayıcıları için tanıttı. Canlı Alt Yazı, herhangi bir video veya ses klibinde eş zamanlı olarak alt yazılar oluşturmak için makine öğrenimini kullanıyor. Bu sayede günümüzdeki en büyük problemlerden biri olan alt yazı desteği olmayan videolar veya siteler için bu desteği sunabiliyor. Google geliştirdiği Canlı Alt Yazı teknolojisi sayesinde işitme engelli ve işitme güçlüğü çeken kişilerin internet içeriğine daha fazla erişmesini sağlıyor.


Günümüze kadar oluşturulan alt yazıları canlı olarak kullanıcılara sunmak mümkün olmadı. Youtube gibi platformlarda, videoyu hazırlayan veya destek olmak isteyen kişiler tarafından oluşturulan alt yazılar kullanıcılara sunuluyor ve buna ek olarak bazı videolarda da otomatik olarak Google Çeviri ile oluşturulmuş alt yazılar kullanılıyor. Ancak Instagram, Snapchat gibi platformlarda alt yazıyı hazırlamak ve yayınlamak mümkün kılınmadığı için Youtube’dakine benzer otomatik oluşturulmuş alt yazıları bile bulmak neredeyse imkansız oluyor.

Alt yazının ayarlandığı Youtube paneli
Alt yazının ayarlandığı Youtube paneli

Canlı Alt Yazı engelli insanlar gibi toplumdaki birçok kişinin teknolojiden yeterli faydayı sağlayamaması durumunu değiştirmeye geliyor: Yapılan birkaç dokunuşla, herhangi bir kullanıcı ses ve videonun anlık ve doğru bir şekilde hazırlanan alt yazılara sahip olabilir.


Google’ın Canlı Alt Yazısındaki NLP Nedir?

Google’ın Canlı Alt Yazısı, bir tür Nörolinguistik programlama (NLP) veya doğal dil işleme teknolojisini kullanıyor. NLP adını verdiğimiz yapay zekâ, insanlar ve makineler arasındaki “etkileşimi” kolaylaştırmak için algoritmalar kullanıyor. NLP’ler, insan dillerini makine dillerine ve çoğu zaman bunun tersi olarak makine dillerini insan diline çevirmemize yardımcı oluyor.

Örnek bir makine dili
Örnek bir makine dili

1964’ten 1966’ya kadar Alman bilim insanı Joseph Weizenbaum, ELIZA olarak bilinen bir NLP algoritması geliştiriyordu. ELIZA, insanlarla etkileşimli bir konuşma oluşturmak için kalıp eşleştirme tekniklerini kullanıyordu. Örneğin, ELIZA’nın doktor rolüne girdiği bir senaryoda, bilgisayara bir hasta tarafından “başım ağrıyor” dendiği zaman, sistem “başın neden ağrıyor?” gibi bir ifadeyle yanıt veriyordu. ELIZA şimdi en eski sohbet robotlarından biri olma ünvanını taşıyor ve Turing testinde insanı kandıran ilk yapay zekâ sistemlerinden biri olarak kabul ediliyor.


1980’ler NLP teknolojisi için önemli bir dönüm noktası olarak görülüyor. Geçmişte, ELIZA gibi NLP sistemleri, karmaşık bir dizi kurala dayanarak konuşmalar oluşturuyordu. Başka bir deyişle, yapay zekâ kendi başına düşünemiyordu. Bu sistemler sizi belirli cevaplar ile sınırlandıran müşteri hizmetleri robotu gibi görev yapıyordu. İnsan, sisteme yanıtını bilmediği bir şey söylediğinde, “Bana konuşmanın önceki bölümlerinden bir konu hakkında daha fazla bilgi vermen gerekiyor.” gibi insanları tatmin etmeyen cevaplar veriyordu. Bu durum günümüzde Siri’nin bazı durumlarda “Anladığımdan emin değilim” demesine veya Amazon Amerika müşteri hizmetleri sohbet robotunun bizleri sadece 4 cevap ile sınırlandırmasına benziyor.

Türk kültüründen ifadeler kullandığımız zaman ne demek istediğimizi anlamayan Siri bizden bir şans daha istiyor. Sizce haklı mı?
Türk kültüründen ifadeler kullandığımız zaman ne demek istediğimizi anlamayan Siri bizden bir şans daha istiyor. Sizce haklı mı?

Modern konuşma tanıma sistemlerinde kullanılan NLP teknolojisi, konuşan kişiyi özel olarak tespit edebilmeyi sağlayan konuşma tanıma, ses tanıma, dil tanımlama ve günlükleştirme gibi birkaç ortak ilkeyi içeriyor. Google’ın Canlı Alt Yazı sistemi, alt yazıları oluşturmak için üç derin öğrenme modelini kullanıyor: konuşma tanıma için bir sinir ağı sistemi (RNN), noktalama işaretlerini tanımak için metin tabanlı bir sinir ağları ve ses olaylarını sınıflandırmak için başka bir sinir ağı teknolojisi (CNN). Bu üç model sayesinde, ses olaylarını ve noktalama aletlerini birleştiriliyor ve canlı alt yazıları oluşturuluyor. Bir ses veya video formatında konuşma tanındığında, Otomatik Konuşma Tanıma (RNN) sistemi devreye giriyor ve cihazın mikrofondan duyduğu kelimeleri metne dönüştürmesini sağlıyor. Şu anda Canlı Alt Yazı yalnızca İngilizce metinler için alt yazı oluşturabiliyor, ancak Google’ın açıkladığına göre sistem halen sürekli olarak geliştiriliyor ve yakın gelecekte diğer dillerin desteğini de verebilir. Şu anda sistem; İspanyolca, Almanca ve Portekizce dilleri için demo sürümünde Google Meet üzerinden çalışabiliyor.

Google Canlı Alt Yazılar teknolojinin kullanımı
Google Canlı Alt Yazılar teknolojinin kullanımı

Endişe Yaratabilecek Konular

Geliştirilen teknolojide hala birkaç sorun bulunuyor. Genellikle yapay zekâ sistemleri, bazen güçlü aksanları veya lehçeleri olan kişileri anlamakta zorluk çekiyor. Örneğin, İstanbul ağzıyla konuşan bir insana göre geliştirilmiş sistem, Trabzon ağzıyla konuşan bir insanı anlamakta büyük zorluk çekebilir. Bununla birlikte, teknolojilerde bulunabilecek ön yargılardan dolayı yapılan birden fazla çalışmada konuşma tanıma sistemlerinde ortalama kelime hata oranında ırka dayanan farklılıklara rastlandı.Yapılan araştırmalarda Amazon, Apple, Google‘ın konuşma tanımaya dayalı yapay zekâ sistemlerinde siyahi kişilerin kelime tanıma sistemindeki ortalama kelime hatasının beyaz kişilerin sistemindeki kelime hatasından neredeyse iki kat fazla olduğu ortaya çıktı.


Teknolojinin insanları bir araya getirme konusunda inanılmaz bir potansiyeli bulunuyor ancak bu potansiyelin nasıl kullanıldığı tamamen bize bağlı. Yapay zekânın ayrımcılığa teşvik etmesi etmesi sonucunda insankar bu durumun etkisi altında kalarak engellilik, ırk, etnik köken veya başka bir nedenle ayrımcılık yapabilir. Böylece teknoloji ve onun arkasındaki kişiler sebebiyle insanlar arasında gruplaşma olabilir. Google’ın geliştirdiği doğal dil işleme sayesinde, bu gruplaşmanın biraz önüne geçilmesi isteniyor. Teknoloji sayesinde toplumun tüm kesimleri gelişmeye dahil edilerek daha erişilebilir, barışçıl bir gelecek inşa edebiliriz ve insanlar arasında gerginliğe sebep olan ayrımcılığı Google’ın Canlı Alt Yazısı gibi teknolojiler ile ortadan kaldırabiliriz.

Kaynak: Interesting Engineering Bu içerik Can Duru tarafından gelecekburada.net için hazırlanmıştır ve basılı veya çevrim içi yayınlarda dağıtımı konusunda hakları elinde tutar. Kaynak göstererek (ve link vererek) paylaşabilirsiniz.