Building a Search Engine

Today I’d like to mention about search engines and their design criterias. Yes we have Google, Bing, Yahoo, Duckduckgo, yandex and many more. But is it easy to build a search engine? The answer is clearly NO. If you think that you can easily build a search engine you’re more like you’re comparing  a Ferrari and 1769 Cugnot Steam Trolley (Jonathan Holguinisburg). Yes, it is that much different.

I’ll elaborate what I mean. Let’s start with first phase, crawling.

Continue reading

Büyük Veri 101

Büyük Veri Nedir?

Veri’yi tanımlayacak olursak;

Veritabanındaki bir kayıt
Fotoğraf
MP3 dosyası
Tweet
Sayı
Radyo sinyali
Sıcaklık
Mobil uygulama
Bir web sayfasında kalma süresi
Sizin için anlamlı (veya şimdilik anlamsız) herşey…

Önemli olan bu veriyi yorumlayabilmektir. Amerika’da elle gönderilen her posta (e-posta değil bildiğiniz mektup) dijital olarak da gönderen, gönderilen gibi bilgileriyle dijital ortamda saklanmaktadır ki ABD’de posta oldukça yaygın bir haberleşme türüdür.

Ek olarak Google aramalarımızdan grip salgınını tahmin edebilmektedir.

Peki büyük veri nedir, benim büyük verim, senin büyük verin midir? Herkesin bir popisi var mıdır? Bu kavram belki de en çok açıklama gerektiren kısımdır.

Şimdi büyük kavramını tanımlayalım. Böylelikle birileri çıkıp benim 1milyon tane xyz.xyz türünde dosyam var toplamda 100GB yapıyor, büyük veri çalışıyorum demesin.

Hergün 2.5 quintillion byte oluşturuyoruz (evet hergün)
1 quintillion = 1 000 000 000 000 000 000 byte = 1000 petabyte = 1 milyon terabyte = 1 milyar GB
Dünya üzerindeki verinin %90’ı son iki yılda oluşturuldu
Bu durumdan ne anlamalıyız, GB küçük veridir hatta artık 10TB’dan az veri büyük veri pek sayılmaz.

Büyük veriyi tanımlayanlar 3V, 4V gibi kavramlardan bahsediyorlar bu 3V/4V kısaca:

Volume (yani gerçekten verinin hacmi = kaç GB, TB vb.)
Velocity (verinin hızlı olması, çabuk oluşuyor, çabuk tükeniyor)
Variety (çeşitli çeşitli veri var, resim, video vb.)
Veracity (verimiz o kadar çok ki bu verinin içinden şunlar tutarlı, şunlar yanlış diye bile ayıklayamacak durumdayız)
şeklinde tanımlanmış. Bu durumdaki veriye büyük veri demiş büyüklerimiz.

Kısacası neymiş mesele:

Geleneksel yöntemler kullandığımız taktirde:

Veriyi okumamız için geçecek süre ölçüsüz fazlaysa
Veriyi yorumlamamış için çok zorluklar çekeceksek
Veriyi başka yöntemlerle işlediğimiz taktirde zaman ve efor kaybımız kabul edilebilir durum değilse
Verimiz büyük veridir diyebiliriz. Yoksa 1milyar küçük dosyamız var ancak 10GB yer tutuyor, ve siz makine öğrenmesi kullanarak bu dosyalarda metin analizi yapacaksınız. Malesef büyük veri ile uğraşmıyorsunuz. Büyük veri dosya sayısıyla ilişkili değildi hatırlayacak olursak, 4V (5V diyenlerde var) ile alakalıydı.