Doç. Dr. Pınar Duygulu Şahin ile Söyleşi
Bilgisayarla görme ve nesne tanıma araştırmalarının detaylarını ve kendi başarı hikâyesini Doç. Dr. Pınar Duygulu Şahin ile konuştuk.
Bir fotoğraf ya da video çektiğinizi düşünün. Bu görüntüler bilgisayarınız tarafından analiz edilerek, görüntülerin içerisindeki nesnelerin adı, sayısı, türü ve nerede çekildiği gibi birçok bilgi size aktarılacak. Bu amaçla gerçekleştirilen bilgisayarla görme ve nesne tanıma araştırmalarının detaylarını ve kendi başarı hikâyesini Doç. Dr. Pınar Duygulu Şahin ile konuştuk.
TÜBİTAK Bilim Genç: Kendinizi tanıtır mısınız?
Doç. Dr. Pınar Duygulu Şahin: 1974 yılında Ankara’da doğdum. Orta Doğu Teknik Üniversitesi Bilgisayar Mühendisliği Bölümü’nden 1996 yılında lisans, 1998 yılında yüksek lisans ve 2003 yılında doktora derecelerimi aldım. Doktora çalışmalarımın bir kısmını TÜBİTAK bursu ile gittiğim Berkeley’deki Kaliforniya Üniversitesi’nde danışmanım Prof. David Forsyth ile tamamladım. Bu çalışmaları içeren makalemiz ile “Avrupa Bilgisayarla Görme Konferansı”nda “Bilişsel Görme” dalında en iyi makale ödülünü kazandık.
2004 yılında Bilkent Üniversitesi Bilgisayar Mühendisliği Bölümü’nde öğretim üyesi olarak çalışmaya başladım. 2005’te TÜBİTAK Kariyer Ödülü’ne layık görüldüm. 2013 yılından bu yana Fulbright bursu ile geldiğim Carnegie Mellon Üniversitesi’nde ziyaretçi araştırmacı olarak görev yapıyorum. 2015’te Türkiye’ye dönüp çalışmalarıma ülkemde devam edeceğim.
TÜBİTAK Bilim Genç: Hangi konularda araştırma yapıyorsunuz?
Doç. Dr. Pınar Duygulu Şahin: Fotoğraf ve videoların içeriğini bilgisayar sistemleri ile anlama konusunda araştırmalar yapıyorum. Örneğin şehirde yaşıyorsanız pencerenizden çektiğiniz bir fotoğrafta muhtemelen evler, ağaçlar, sokaklar, taşıtlar ve insanlar olacaktır. Geliştirdiğimiz sistemler tamamlandığında, fotoğrafı bilgisayara yüklediğinizde, bilgisayarınız bunun bir şehir fotoğrafı olduğunu anlayabilecek ve fotoğrafta bu nesnelerden veya insanlardan kaçar adet yer aldığını belirleyebilecek. Ayrıca, eğer fotoğraf yerine video çektiyseniz taşıtların ve insanların yönleri ve hızları bulunabilecek. Bir sonraki aşamada ise insan hareketlerinin (koşma, yürüme gibi) tanımlanabilmesi amaçlanıyor. Daha da ötesi biri düştüğünde ya da bir kaza meydana geldiğinde, geliştirdiğimiz sistem bunu fark edip hemen size haber verebilecek. Nihai hedef ise sistemin olağandışı durumları önceden tahmin edip sizi uyarabilmesini sağlamak. Bu amaçla çalışma grubumuzla birlikte nesne, sahne, kişi ve hareket tanıma problemleri üzerine uğraşıyoruz.
TÜBİTAK Bilim Genç: Nesne tanıma probleminden biraz bahseder misiniz?
Doç. Dr. Pınar Duygulu Şahin: Nesne tanıma problemini hayatınızda hiç görmediğiniz yeni bir cismin size öğretilmesi olarak düşünebilirsiniz. Önce bu cismi iyice inceleyip özelliklerini anlamaya çalışırsınız. Diğer nesnelerle arasındaki benzerlik ve farklılıkları sorgularsınız. Biri size cismin ismini söylediğinde ise bunu belleğinize yeni bir nesne olarak kaydedersiniz. Bilgisayarla nesne tanıma problemi de bundan çok farklı değil. Ancak ne yazık ki düşünüldüğü gibi çözülmesi kolay bir problem de değil. Her şeyden önce nesneler bize üç boyutlu cisimler olarak verilmiyor. Nesnelerin sadece iki boyutlu, tek açıdan çekilmiş fotoğrafları veriliyor. Çoğu zaman nesneler kendi içlerinde çok değişiklik gösterebiliyor. Örneğin sandalye denildiğinde, gözümüzde genel olarak dört ayaklı tahta sandalyeleri canlandırsak da çok farklı tasarıma, malzemeye, renk ve dokuya sahip sandalyeler de var.
Öğretici gerektiren çalışmalarda kişilerden örneğin bir resmin içinde araba olup olmadığını söylemesi ve arabanın bulunduğu bölgeyi işaretlemesi istenir. Ancak bir kavramı öğrenmek için çok sayıda örneğin etiketlenmesine ihtiyaç duyulur. Arabanın önden, arkadan ve yandan görüntüsü farklı olduğu için de her biri için bu işlemin tekrarlanması gerekir. Bu da çok fazla insan emeği demek.
TÜBİTAK Bilim Genç: Peki, bu problemleri nasıl çözüyorsunuz?
Doç. Dr. Pınar Duygulu Şahin: İnternette resimle beraber eşleştirilmiş metni kullanarak çok emek gerektiren etiketleme işleminden kurtulmaya çalışıyoruz. Bu metin bir haber fotoğrafının başlığı ve ilgili haber olabileceği gibi resmi yükleyen kişi ya da arkadaşları/beğenenleri tarafından Flickr ve Facebook gibi sitelerdeki resimlere iliştirilmiş kelimeler de olabilir. Her şeyden önce resmin görsel içeriğini tanımlayan kelimelerin yanında çok ilgisiz kelimeler de sıkça kullanılıyor. Ayrıca kişisel farklılıklar kelime seçimine de yansıyor. Çok daha önemli bir fark ise kelimenin resim içinde hangi bölgeye denk geldiği bilgisinin bulunmaması. Örneğin resmi tanımlayan kelimeler arasında araba bulunabilir, ama arabanın nerede olduğu belirsizdir. Bir resimde birden fazla nesne ve iliştirilmiş metinde birden fazla isim olabileceği için ayrıca bir eşleştirme problemi ortaya çıkıyor.
Çalışmalarımızda bu problemleri çözebilmek ve resme ait görsel özellikler ile iliştirilmiş kelimeleri eşlemek üzere makine öğrenme yöntemleri geliştirmek için uğraşıyoruz. Sadece resim değil aynı zamanda videolar üzerinde de çalışıyoruz.
TÜBİTAK Bilim Genç: Sizi bu konularda araştırma yapmaya yönelten sebepler neler?
Doç. Dr. Pınar Duygulu Şahin: Üniversite öğrencisi iken bir yandan TRT’de Genç Haber programında sunuculuk ve muhabirlik yapıyordum. Bir konuda haber hazırlarken arşivdeki eski haber görüntülerinden yararlanmak isterseniz, yapabileceğiniz tek şey kelime bazlı arama ile sadece birkaç kelimeyle etiketlenmiş videoları sorgulamaktır. Doğal olarak bu pek de başarılı sonuçlar vermiyordu ve tekrar tekrar aynı görüntüler kullanılıyordu. Videoları kişilerin emek harcamasına gerek olmadan otomatik olarak etiketleyebilen ve gerektiğinde sadece görsel özelliklerine göre arama yapabilen bir sistem geliştirme fikri de o zamanlarda doğdu. Sonrasında ODTÜ’deki çok değerli tez danışmanlarım Prof. Dr. Volkan Atalay ve Prof. Dr. Fatoş Yarman Vural sayesinde çok daha farklı görüntü işleme problemleri ile uğraşma şansını yakaladım.
TÜBİTAK Bilim Genç: Yaptığınız araştırmaların uygulama alanları neler?
Doç. Dr. Pınar Duygulu Şahin: Bilgisayarla görme konusunda araştırma yapmanın en güzel yanı hayatımızın birçok yönünü etkileyen problemlere çözüm üretebilmek. Birçok disiplin ile ortak çalışma yapabiliyorsunuz. Günlük hayatta karşılaştığınız birçok problem araştırmalarınız için uygulama alanı yaratabiliyor.
Ne yazık ki günümüzün en gelişmiş arama motorları bile resim aramada çok başarılı değil. Bu nedenle kelime tabanlı resim ya da video arama hâlâ ilk yaptığınız şey oluyor. Ancak sonuçlar çok tatmin edici değil. “Jaguar” sözcüğünü aradığınızı düşünün. Hem bir hayvan hem de bir spor araba adı olan bu kelime size iki türden de resim bulacaktır. İkisi arasındaki fark görsel özelliklerde gizli.
Fotoğraf çekmeyi çok seviyorsunuz, ama bilgisayarınızdaki dosyaları düzenlemeye ve etiketlemeye zaman bulamıyorsunuz. Lisedeki en yakın arkadaşınızla okulunuzun önünde beraber çektirdiğiniz fotoğraf nerede acaba? En sevdiğiniz diziye yeni bir karakter katıldı, daha önce hangi film ya da dizide görmüştünüz onu? İşte tüm bunlar ve aklınıza gelebilecek benzer problemler bizim uğraştığımız konular arasında.
Yakın zamanda en çok ilgimi çeken konu ise yaşlı, engelli ve hasta kişilere nasıl yardımcı olunabileceği. Sürekli doktor, hemşire ya da hasta bakıcıların kontrolü mümkün değil. Ama bazen bir ilacın ya da tedavinin etkisini görmeniz için süreci takip etmeniz çok önemli. İşte bu noktada ortama yerleştirebileceğiniz kameralar en büyük yardımcınız olacaktır. Ama her gün 24 saat kamera kaydı yaptığınızda elinizdeki görüntü saklayamayacağınız kadar büyük boyutlara ulaşacaktır. Bir kişinin bunları izlemesi ise mümkün değil. Bu durumda yapmanız gereken otomatik olarak veriyi analiz etmek, kişi hareketlerini anlamak, düşme gibi acil durumları anında yakalayabilmek ve belli bir süreçte takip ettiğiniz hareketlerden doktorun işine yarayabilecek bilgileri keşfetmek.
TÜBİTAK Bilim Genç: Araştırmalarınızın uygulama alanlarından biri de Osmanlıca belgeler. Bununla ilgili neler söyleyebilirsiniz?
Doç. Dr. Pınar Duygulu Şahin: Bilkent Üniversitesi Tarih Bölümü’nden Dr. Mehmet Kalpaklı ve Bilgisayar Mühendisliği Bölümü’nden Dr. Fazlı Can ile birlikte divanlar üzerine yoğunlaşarak yazılı ve görsel verilerden yeni bilgiler keşfetmeye çalışıyoruz. Matbu metinlerde Arap alfabesi yerine şu an kullandığımız Latin alfabesi ile yazılmış metinlerin otomatik olarak üretilmesi için uğraşıyoruz. Ama elyazması metinlerde bu çok daha zor bir problem. Bu nedenle elyazması metinlerde sanki bir resim ararmış gibi kelime arama yöntemleri geliştiriyoruz. Ayrıca, özellikle yapıların duvarlarında süs unsuru olarak kullanılan, “Kufi” gibi geometrik özelliklerle yazılmış yazıların ne anlama geldiğini bulmaya yönelik çalışmalar da yapıyoruz.