HADOOP NEDİR?

Hadoop, commodity hardware adı verilen klasik sunucularda büyük verileri işlemek amacıyla kullanılan bir sistemdir. Temel olarak yazılımı dağıtık dosya sistemi olarak tanımlayabiliriz. Bu dağıtık dosya sistemi HDFS yani Hadoop Distributed File System olarak adlandırılıyor.

Hadoop yazılımı bize HDFS ile Mapreduce fonksiyonlarını birleştirerek Java ile açık kaynak kodlu olarak geliştirilmiş güncel bir kütüphane sunuyor. Hadoop nedir sorusuna verilebilecek en basit yanıt ise sunucuların büyük veri işleme amacıyla kullandıkları sistemdir.

Big Data Nedir?

Hadoop sistemi baz alındığında en sık görülen terimlerin başında big data geliyor. Big data nedir ya da Türkçe karşılığıyla büyük veri nedir soruları çoğunlukla merak edilenler arasında yer alıyor.

Big data temel olarak büyük veri olarak çevrilmiş olsa da aslında boyutsal bir büyüklüğü sembolize etmemektedir. Aslen programcılar tarafından dev veri olarak anılmaktadır. Burada ki büyük ve dev tabirleri klasik yöntemler kullanılarak işlenemeyen verileri tanımlıyor.

Big data somut olarak bakıldığı zaman hayatımızın her alanını kapsayabiliyor. Örneğin bir otomobil firması sensörler sayesinde sürücülerin sürüş istatistiklerini toplamaya başladı. Bunun gibi medikal veriler, üretim verileri, teknolojik gelişmeler toplandığında big data oluşuyor.

Peki bu kadar verinin nerede tutulduğunu hiç düşündünüz mü? Evimizde var olan disk sürücüleri terrabyte boyutlarında bazen bize yetmeyebiliyor. Büyük veri için bahsedeceğimiz boyutlar petabyte, exabyte ya da zettabyte düzeylerinde olabiliyor. Önümüzdeki 5 sene içinde dünya genelinde depolanan big data boyutunun 35 zettabyte düzeyinde olması bekleniyor.

Big data nasıl işleniyor sorusu herkesin merak ettiği bir kavram. Bu konuyu klasik donanımsal yöntemlerle çözmek milyon dolarlık yatırımlara sebep olabilir. Çünkü işlenecek veri gerçekten çok fazla. Ayrıca klasik yöntemlerle aynı performansı almak çok zor diyebiliriz.

Örneğin Google arama motorundan yaptığımız aramaların sonuçları saniyeler içerisinde karşımızda duruyor. Bunu klasik bir yöntemle yapsaydı belki aradığımız bir habere 2-3 gün sonra ulaşabilirdik. Bu anlamda Apache projesi olarak adlandırılan Lucene, Solr, Hadoop, HBase sistemleri big data işlemek için yaratılmış yazılımlar olarak dikkat çekiyor.

Apache Hadoop Nedir?

Apache Hadoop nedir konusunda kısaca büyük veri işleme sistemi diyebiliriz. Apache projesi olarak 2011 yılında başlayan geliştirmeler bu alanda büyük bir başarı sağlamıştır. Apache Hadoop, açık kaynak kodlu olarak Java için geliştirilmiş büyük veri kümeleri işleme aracıdır.

Apache Hadoop iki ana bölüme ayrılarak incelenebilir. Depolama bölümü olarak dağıtık veri sistemi olarak bilinen HDFS ve işleme modülü olarak MapReduce kullanılmaktadır.

Apache Hadoop sayesinde büyük veri işlemeleri kısa sürede halledilebilir. Bu harika bir mimarisi olduğundan kaynaklanan bir özelliktir. Hadoop kurulumu sayesinde Big data sunucu içinde bilgisayar kümelerince bölüştürülür. Dolayısıyla yük azalacağı gibi işlem süreside kısalır.

Apache Hadoop teknik anlamda bu bileşenlerle işlemektedir.

Hadoop Common, dev bir kütüphane ve yardımcı Hadoop modüllerinden oluşan büyük veri işlemesine yardımcı kaynaklar
HDFS, büyük veri kapsamına giren veri yığınlarını işlerken veri kümeleri oluşturmak için kullanılan dağıtılmış veri sistemi
Hadoop Yarn, işlenecek verilerin üzerinde kaynak yönetimi, uygulama kullanımı ve kişisel ayarlamalar için veri depolama adına yaratılmış olan kaynak yönetim platformu
Hadoop MapReduce, büyük veri işlemeleri için kullanılan programlama sistemi

Hadoop MapReduce

Hadoop Mapraduce büyük veri işlemek için ihtiyacımız olan demirbaşlardan birisidir. Temel anlamda Map ve Reduce bu sistemi oluşturmaktadır. Kullanacağımız depolanmış veriyi filtreleyen map fonksiyonu ve işlediğimiz verilerin analizini sunan Reduce fonksiyonu birleştiğinde Hadoop MapReduce ortaya çıkmıştır.

Hadoop bu noktada Map ve Reduce ile gelişmiş bir sistem mimarisinde çalışmaktadır. İşlenecek olan verilerin oluşturduğu görevleri farklı kümelere dağıtarak aynı anda daha hızlı işlenmesini sağlar. Ayrıca işlenen verilen sonuçlarının toplanması ve analiz edilmesi diğer vasıflarıdır.

Mapreduce nedir sorusunu yanıtladığımıza göre birazda içeriğinden bahsetmekte fayda var. Genel bir tabirle ne kadar çok sistem yükü olursa işlem süresi ve işlem ağırlığı artar. Ancak Mapreduce ile bunun tam tersi oluyor diyebiliriz.

Çünkü Hadoop Mapreduce işlem kümeleri üzerinden çalıştığı için ne kadar çok işlem yapılırsa o kadar çok veri kümesi oluyor. Haliyle aslında daha fazla işlemle daha iyi sonuçlar elde etmek mümkün hale geliyor. JobTracker ve TaskTracker isminde iki farklı fonksiyondan bahsedebiliriz.

JobTracker, MapReduce üzerinde işlenecek olan veri kümelerinden sorumludur. Veri işleme esnasında oluşacak sorunlara yeniden başlatarak, sonlandırarak ya da hata ayıklayarak çözümler sunar. TaskTracker ise JobTracker tarafından belirlenmiş verileri tamamlamak için iş parçacığı bekler. Dolayısıyla TaskTracker verilen iş parçacığını tamamlayarak HDFS üzerinde bir dosya olarak bitirir.

Hadoop Dersleri

Hadoop dersleri birçok özel kurum tarafından verilmektedir. Aynı zamanda internet üzerinde konuyla ilgili birçok dokümana ulaşmanız mümkün.

Hadoop eğitimi aslında gelecekte daha sık karşılaşacağımızı varsayarsak oldukça faydalı olacaktır. Çünkü teknolojinin ilerlemesi ve sosyal medya devrimi ile birlikte dev şirketler ellerinde tuttukları büyük istatistik verilerini işleme konusunda aynı sistemi kullanmaktadır. Hadoop eğitimi bu noktada gelecek için güzel bir yatırım olabilir.

İnternet üzerinden makale ve tezler okuyarak, eğitim videoları izleyerek Hadoop, Hadoop Mapreduce, Big data yani büyük veri konularında bilgi sahibi olabilirsiniz.

Hatta bilgi sahibi olmanın ötesine geçerek büyük veri işleme konusunda kendinizi geliştirerek büyük projelerde görev alabilirsiniz.