BBY 156 Bilgi Eriim 2012 2013 http bby
BBY 156 Bilgi Erişim 2012 -2013 http: //bby 156. blogspot. com Kavramlar İrem Soydal ~ Yurdagül Ünal soydal@hacettepe. edu. tr yurdagul@hacettepe. edu. tr
Bilgi toplumuna geçiş hızı v Pulluk insan yeteneklerini ve üretimi 10 kat artırıyor v Kimyasal gübre tarımda üretimi 10 kat artırıyor v Pulluk * Kimyasal gübre=100 kat artış Tarım devrimi v Buharlı makine 1000 kat artırıyor Sanayi devrimi v Bilgi ve iletişim teknolojileri bilgi toplama-işleme-iletimde milyonlarca kat artış sağladı. Yani BİT’ler insan yeteneklerini trilyonlarca kat artırdı Bilgi devrimi?
Bilginin değişen rolü Tarım Toplumunda bilgi ? ◦ sorun çözmede yardımcı olan kritik bir “girdi” idi Sanayi Toplumunda bilgi ? ◦ ticari bir ürün, en temel ekonomik kaynak, “kalkınmanın can damarı” haline gelen bilgi “çözümün” kendisi oldu. Bilgi Toplumunda bilgi ? ◦ yaratılabilecek, iletilebilecek, depolanabilecek sınırsız bilgi giderek bir “sorun” haline gelmeye başladı.
Bilgi teknolojisi dünyayı nasıl değiştiriyor? Aygıttan aygıta ağ bağlantısı Her aygıt ve uygulamada kesin yerel mekan bilgisi de gömülü Sıcaklık, hareket, basınç, hızlanma, akış, elektrik kullanımı, ışınım, kimyasal kompozisyonu ölçen algılama aygıtlarının bütünleştirilmesi YANİ? . . .
Bilgi teknolojisi dünyayı nasıl değiştiriyor? Gittiğimiz her yerde, yazdığımız her şeyle, bilgi ve iletişim teknolojilerini kullanarak yaptığımız işlemle “iz” satış, bırakıyoruz… iz = bilgiher = pazarlama, strateji, politika, güç, manipülasyon/yönetim, zenginlik, iktidar, buluş, … Bu durumda “bilgi”yi kaybetme lüksü var mı? !
Bilgi “ortam”ları ~tarihsel bakış 'İnsanlar yazıyı öğrenirlerse akıllarına unutkanlık aşılanır; bellek alıştırması yapmayı bırakırlar. Çünkü yazılı olana güvenirler; şeyleri ezbere değil, Bilgi depolama ortamları dışsal işaretler aracılığıyla hatırlamaya çalışırlar. Keşfettiğiniz şey bellek için beyin, kültürel birikim, “dış” ortamlar değil, ◦hatırlama için bir reçetedir. Ve size inananlara sunduğunuz şey gerçek bir hikmet değil, sadece onun görüntüsüdür. Çünkü size inananlara Bilgi iletim ortamı birçok şey söyleyerek, ama öğretmeden, onları çok biliyorlarmış gibi ◦ dağıtık ağlar: 14 saniyede Kongre Kütüphanesi’nin gösterebilirsiniz. Oysa çoğunlukla hiçbir şey bilmezler. Ve insanlar gerçek hikmetle donatılmazlarsa diğer insanlara olurlar. 'mümkün içeriğini bir yerden bir yereyük iletmek ‘Dünya uygarlığı bir savaşla yok olup, geriye kütüphanelerde saklanan nesnel Bilgi işleme ortamları bilgi içeriği kalırsa, uygarlığı yeniden kurmak mümkündür. Halbuki bu nesnel beyin, bilgisayarlar, insanlardan “akıllı” bilgi ◦içeriği, yani kütüphaneler yok olup, yalnızcadaha öznelerin öğrenme yeteneği kalsa, çağdaş uygarlığı yenidenbeyin” inşa etmek hemen imkânsızdır. ’ makineler, “yapay “. . . tüm insanlığın belleği herkes tarafından erişilebilir hale getirilebilir, ve muhtemelen yakın bir gelecekte getirilecektir. . Bu beyin insan kafası ya da kalbi gibi kolayca tahrip edilemez. Kesin ve tam olarak Peru’da, Çin’de, İzlanda’da, Merkezi Afrika’da ya da tehlikeye ve engellemeye karşı garanti altına alınabilecek herhangi bir yerde bu beynin röprodüksiyonu yapılabilir. Bu beyin aynı zamanda hem kafataslı bir hayvanınki gibi tek bir yerde toplanabilir hem de bir amipinki gibi dağıtık ama canlı olabilir. ”
Yeni kavram: Bilgi ekonomisi Ekonomi: Kıt kaynakların tahsisi “. . . Bilginin yeni rolü tam olarak değerlendirilmeden, zenginliğin rolü konusundaki hiçbir tahmin tutarlı olmayacaktır. ” “. . . İşleri hızlandırarak zamanla ilişkimizi değiştirdiğimizde, bilginin bir bölümünü kaçınılmaz bir şekilde eskitiyoruz. Dolayısıyla, etrafımızda sürüklediğimiz eski bilgi miktarını artırıyoruz. ”
Bilgi Patlaması – 2000’lerin başı ABD’de her yıl 80 milyar fotoğraf çekiliyor 2 milyar röntgen filmi çekiliyor Günde 610 milyar e-posta mesajı gönderiliyor Her yıl 15 trilyon sayfa yazıcılardan çıktı alınıyor 2002’de dünyada üretilen yeni bilgi miktarı ◦ 5 Exabyte (5 x 1018 byte) ◦ 5 Exabyte’lık bilgi = 37, 000 yeni Kongre Kütüphanesi! ◦ = 50 milyardan fazla The Economist dergisinin içeriği
Bir Exabyte (EB) ne kadar büyük? 1, 000 bytes OR 103 bytes 2 Kilobytes: A Typewritten page. Kilobyte (KB) 100 Kilobytes: A low-resolution photograph. 1, 000 bytes OR 10 6 bytes 1 Megabyte: A small novel OR a 3. 5 inch floppy disk. 2 Megabytes: A high-resolution photograph. 5 Megabytes: The complete works of Shakespeare. 10 Megabytes: A minute of high-fidelity sound. 100 Megabytes: 1 meter of shelved books. Megabyte (MB) 500 Megabytes: A CD-ROM. 1, 000, 000 bytes OR 10 9 bytes 1 Gigabyte: a pickup truck filled with books. 20 Gigabytes: A good collection of the works of Beethoven. Gigabyte (GB) 100 Gigabytes: A library floor of academic journals. 1, 000, 000 bytes OR 10 12 bytes 1 Terabyte: 50000 trees made into paper and printed. 2 Terabytes: An academic research library. 10 Terabytes: The print collections of the U. S. Library of Congress. Terabyte (TB) 400 Terabytes: National Climactic Data Center (NOAA) database. 1, 000, 000 bytes OR 1015 bytes 1 Petabyte: 3 years of EOS data (2001). 2 Petabytes: All U. S. academic research libraries. Petabyte (PB) 20 Petabytes: Production of hard-disk drives in 1995. 200 Petabytes: All printed material. 1, 000, 000 bytes OR 1018 bytes Exabyte (EB) 2 Exabytes: Total volume of information generated in 1999. 5 Exabytes: All words ever spoken by human beings.
161 Exabayt ne kadar eder? Dünyadan Güneşe kadar uzanan 12 raf kitap ! Kişi başına 6 ton kitap ! http: //www. emc. com/about/destination/digital_universe/pdf/Expanding_Digital_Universe_IDC_White. Paper_022507. pdf
Bilgi patlaması – Internet (2001) “Yüzey web”de yaklaşık 100 milyar belge var (dı) (1670 Terabyte) “Derin web”de 550 milyar belge var(dı) (91. 857 Terabyte)
Surface Web http: //www. stephenleonard. ie/censorship/deep. html
Kaynak: www. science. gov/communications/library/00 -44 -00 -22 -10 -07. ppt
Aşırı bilgi ve kullanıcı “Yangın hortumundan su içmeye çalışmak”!… Erişilemeyen bilgi, kullanılamaz, kullanılamayan bilginin varlığı anlamsız Bilgi erişim sorunu günümüzde zirve yapmış gibi görünse de tarihsel kökeni 1940’lara dayanıyor. ◦ ◦ ◦ ◦ Wells, “World Encyclopedia” (1936) Bush, “As we may think, ” Atlantic Monthly, (1945) Memex (memory expansion) “bilgi erişim” (IR) teriminin ilk kez kullanımı (Calvin Mooers, 1952) Otomatik dizinleme – KWIC/KWOC (Luhn, 1958) Boole modeli (Lockheed, 1960’lar) Mantıksal model (Mooers, Cooper & Maron, Van Rijsbergen, 1960 - ) Olasılık modeli (Maron-Kuhns, 1960; Robertson-Jones, 1976; Robertson-Maron -Cooper, 1982; Croft, 1979 ) Vektör uzayı modeli (Gerard Salton, 1961) İstatistiksel ağırlıklandırma (tf*idf, 1970’ler) Dil modelleri (Ponte-Croft, 1998) Performans ölçümleri Cranfield, Medlars, SMART, STAIRS, TREC, 1960 - (Cleverdon, Lancaster, Salton, Blair-Maron, Harman)
“Bilgi erişim”in entelektüel temelleri Sistem felsefesi Bilim felsefesi Dil felsefesi
Dil felsefesi ve bilgi erişim Bilgi düzenleme ve bilgi erişim de dil kullanımının özel bir türü Dilbilimsel yapılar ◦ Sözdağarı ◦ Anlambilim ◦ Sözdizimi Kataloglama, sınıflama, dizinleme
Sınıflama Kuramı Sınıflama dile dayanıyor Dil belirsizlikler içeriyor Kavramlar üzerinde anlaşma sağlamak zor ◦ Domates “meyve” mi “sebze” mi? ◦ “Alternatif tıp” hangi konuya girer? Felsefe? Din? Sağlık ve tıp?
Dizin ve dizinleme. . 4000 yıldan fazla bir zamandır insanoğlu bilgiyi düzenleme derdinde. ◦ Neden? Daha sonradan erişmek ve kullanabilmek için En tipik örnek? Bir kitabın içindekiler sayfası Zaman içinde üretilen bilgi miktarı üç-beş kitabın çok ötesine geçecek kadar arttığı için depolanan/biriktirilen/yığılan bilgiye daha hızlı ulaşmak için daha özel veri yapıları inşa etme zorunluluğu ortaya çıktı. Bu yapıların en eski ve bilinen örneklerinden biri de indeks/dizinler.
. . Dizin ve dizinleme Dizin; depolanan bilgi ya da belgelerle ilgili olacak, onları en hızlı erişim için tanımlayabilecek biçimde seçilmiş sözcük ya da kavramlar listesi. Temel amaç bilgiye daha hızlı ulaşmak. Hangi türde olursa olsun dizinler tüm modern bilgi erişim sistemlerinin temelini oluşturur. “Sorgu işleme” (query processing) sürecinin hızlandırılmasını ve veriye daha hızlı erişmeyi sağlarlar.
. . Dizin ve dizinleme Yüzyıllar boyunca dizinler otomatik sistemler yerine insan eliyle üretildi. (Hala insan eliyle dizinlenen dermeler var) ◦ Nasıl? Metin/kaynak içindeki önemli sözcük ve kavramların belirlenmesi Hiyerarşik kategorizasyon/düzenleme Kavramsal hiyerarşiye nasıl karar verilecek? : “Domates meyve mi sebze mi? ” Sınıflama sistemleri Thesaurus’lar
Bilgi erişim sorununun türleri Günümüzde modern bilgisayar sistemleri çok geniş çaplı dizinleri otomatik olarak üretmeye imkan tanıyor. Otomatik dizinler “bilgi erişim” sorununa yeni bir bakış açısı getiriyor: ◦ Bilgisayar odaklı bilgi erişim sorunları ◦ İnsan odaklı bilgi erişim sorunları
Bilgisayar odaklı bilgi erişim sorunu Otomatik üretilen dizinlerin etkinliği (kelimelerin geçiş sıklığı, kullanıcı geri bildiriminin dizin terimlerinin ağırlıklandırılmasına etkisi, bu bilgilerin nasıl elde edilip derleneceği, sistem tasarımı. . ) Kullanıcı sorgularını (user queries) en doğru şekilde “anlama” ve işleme (processing) Sıralama algoritmaları (ranking algorithms) geliştirerek en etkin sonuç listesini getirme ◦ Etkin sıralama algoritmalarının yararı? Sonuç listesinin niteliğini artırıyor.
İnsan odaklı bilgi erişim sorunu Kullanıcıların bilgi arama davranışlarındaki çeşitlilik Farklı tür kullanıcıların bilgi ihtiyaçlarını anlamadaki zorluklar Mümkün olduğunca “doğal dil” e yakın ve kullanıcı algısına uygun, “öğrenebilen” sistemler geliştirebilme
Bilgi erişimin temel ikilemi “Sözlük” kelimesinin anlamını bilmeyen bir kişinin içinde bulunduğu durum…? “Hakkında bilgi bulmak için bilmediğin bir şeyi tanımlama gereği” (Hjerrpe)
Bilgi erişim süreci Keşfetme Tanımlama Düzenleme Erişim
Yardımcı kaynaklar Baeza-Yates, R. and Ribeiro-Neto, B. (1999). Modern Information Retrieval. (Tam metin) Tonta, Y. , Bitirim, Y. ve Sever, H. (2002). Türkçe Arama Motorlarında Performans Değerlendirme. (Tam metin) Manning, C. D. , Raghavan, P. and Schütze, H. (2009). Introduction to Information Retrieval. (Tam metin)
- Slides: 29