Hadoop, MapReduce, Cloud & NoSQL

Baştan uyarmak isterim, başlık bu yazı için biraz fazla zengin duruyor. Aslında, bu yazıda sadece bu teknolojilere giriş niteliği taşıyan, sevdiğim videoları derlemeye çalıştım. Başlangıcı da Berkeley DB‘nin yaratıcılarından ve Berkeley DB’yi almasından sonra doğal olarak Oracle çalışanı olan, şimdilerde ise Cloudera‘nın CEO’su Mike Olson‘ın röportaj (ayak üstü sohbet) videosuyla yapmak istiyorum. Mike Olson bu video’da sadece bu teknolojilerden bahsetmekle kalmıyor, işin tarihçesini ve neden bu fikirlere gerek olduğunu da anlatıyor. Zaten Olson’ın firması Cloudera’da bir nevi “Hadoop’u dünyevi faniler düzeyine taşıma” işiyle uğraşıyor. Teknoloji bir yana, Olson’ın mütevaziliği de dikkat çekici.


Hadoop bir şekilde ismini duyduğumuz ya da duymaya başladığımız (bu yazıyı okuyorsanız zaten duymuş olduğunuz) bir teknoloji. Hadoop’un ismi Google ile beraber anılıyor dersek yanlış söylemiş olmayız. Google’ın yüksek boyutlu ve şekilsiz (unstructered) verileri, sıradan bilgisayarlara paylaştırılan işler yardımıyla, yüksek hızlarda işleyen MapReduce teknolojisinden yola çıkan bir teknoloji Hadoop. Daha doğrusu, MapReduce’un Apache altındaki açık kaynaklı versiyonu. İşin kaynağına inip, MapReduce’u biraz anlayabilmek isteyen akademiklere göre de videomuz var. Buyrun Berkeley Üniversitesi‘nden MapReduce 101 dersi.

Yukarıda şekilsiz verilerden bahsettik. Şekilsiz veriler için kısaca tablolara koyamadığınız ya da tablolara koymak için yeterli zamanınızın olmadığı ya da tablolara koysanız bile istediğiniz analizleri yapamadığınız veriler diyebiliriz. Twitter’ın verisini ve o veri üzerinde metin tabanlı yapılan sorgulamaları veya mesajlar ve/veya kullanıcılar arasındaki ilişkilerle ilgili sorgulamaları ve bu verilerin artış hızını ve büyüklüğünü düşünmek bile aslında ihtiyacı ortaya koyuyor. Yani elinizdeki veriler öyle bir hal alıyor ki Oracle DB’ye zibrilyon dolar para dökmek bile kar etmiyor. Bu yüzden çeşitli yöntemler ortaya konuyor ve bunlara da genel olarak NoSQL deniyor.

NoSQL aslında “SQL filan yok artık” demek değil, aksine “SQL evet ama sadece o da değil” demek. Başka deyişle, NoSQL = Not Only SQL. NoSQL başlı başına bir uzmanlık konusu, üzerinde daha da yazılması gereken bir başlık. Şimdilik NoSQL için veriyi ilişkisel veritabanlarının (RDBMS) katı tutumlarına karşın, daha esnek yöneten ve kullanan veritabanları diyebiliriz. NoSQL’in türevleri ve mevcut NoSQL projeleriyle ilgili listeyi bu linkte bulabilirsiniz.

Benim favori NoSQL türevim graf veritabanları (graph databases)… Graf veritablarında da önceliği neo4j çekiyor. Son olarak da neo4j’in yaratıcısı Emil Eifrem‘den graf veritabanlarını dinleyelim.

Son olarak dedim ama, bizde de bulut bilişim hakkında katkılar olmuyor değil. Bu video’yu da paylaşmamak olmazdı.

Advertisements

2 Comments

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s