Gerek tesi ve Dijital ada Bilginin Gvenilirlii Bilgi
Gerçek Ötesi ve Dijital Çağda Bilginin Güvenilirliği Bilgi Merkezlerinin Sorumlulukları Üzerine Bir Deneme Prof. Dr. Özgür Külcü kulcu@hacettepe. edu. tr Hacettepe Üniversitesi Bilgi ve Belge Yönetimi Bölümü
Bilgi yönetimi • Bilgi iletilebildiği ve paylaşılabildiği oranda anlamlıdır. • Enformasyonun diğer bir deyişle derlenmiş bilginin iletimi ya da bilgilendirme süreci, anlamlı bilginin (knowledge) ortaya çıkışına zemin hazırlar. • Akıl yürütme, kararlar özünde birincil, doğruluğundan şüphe edilemeyecek kaynağa dayandığı sürece anlamlıdır. • Bilginin ortaya çıkışı, yapılandırılması, erişimi, korunması ve arşivlenmesinin sistematik biçimde yönetilmesi gerekir. • Bilgi ve belge yönetiminin çalışma kapsamını oluşturan bu konular, dijital dünyayla çeşitlenen ancak o oranda da kirlenen bilgi kaynaklarının yönetimini daha da önemli hale getirmektedir.
İşlenmemiş veriden akla bilgi döngüsü
Elektronik ortamda bilgi • • • Erişilebilirlik: Bilgiye istenilen kapsamda zamanında erişimle ilgilidir. İş süreçlerinde bilgi ve belge kaynaklarının zamanında oluşturulması, gönderilmesi, erişilebilmesi ve belirlenen zamanlarda ayıklanması ya da imhası bu kapsamda düşünülmelidir. Kayıt (log) tutma ve hesap verebilirlik (accountability): Bilgi sistemlerinde işlemler daha sonra izlenebilmek için kayıt altına alınmaktır (Marcinkowski- Stanton, 2003). Kullanıcının şifresini yazarak sisteme girmesi, sistem üzerinde yaptığı tüm işlemler ve geçirdiği sürelerin kayıt altına alınması sisteme güven, izlenebilirlik, hesap verebilirlik ve denetim için son derece önemlidir. Kimlik tespiti (authentication): Gizli ya da erişimi sınırlı alanlarda işlemlerin yürütülebilmesi için gerçekleştirilmektedir. Şifreler ve özel parolalar yanında biyometrik uygulamalar aracılığıyla yapılabilmektedir. Güvenirlik: Bilgi sistemlerinden beklenen davranış ile elde edilen sonuçlar arasındaki tutarlılığı tanımlamaktadır (Marcinkowski- Stanton, 2003). Örneğin cihazın çalıştığı zaman dilimi ile çalışması gereken zaman dilimi kıyaslanarak cihazın güvenirliği ortaya çıkarılabilmektedir. İnkâr edememe: e-İmza ya da benzeri yasal olarak kabul edilen platformlar üzerinde yürütülen ve kanıt niteliğinde olan her türlü uygulamayı içerisine alır. Bu bileşenle, ne gönderici alıcıya bir mesajı gönderdiğini, ne de alıcı göndericiden bir mesajı aldığı inkâr edebilir (Tekerek, 2006, s. 133 -134).
Güvenlik Politikaları • • Güvenlik politikaları bilgi güvenliği faaliyetlerinde uygulanacak esas ve usulleri belirler. Bu politikalar kurumun üst düzey yöneticileri tarafından desteklenmesi ve çalışanlar tarafından benimsenmesi gerekmektedir. Güvenlik politikaları kurumların kimliklerine, misyon ve vizyonlarına göre farklılık gösterse de temelde aynı amaca hizmet eder. Çalışanların sorumluluklarını, kontrol mekanizmalarını geliştirmek bu amaçların başını çekmektedir. Bu çerçevede organizasyonlarda aşağıdaki adımlardan oluşan bir güvenlik politikası döngüsünün tüm iş süreçlerine ayrı uyarlanmasında yarar vardır.
Dijital Çağda Bilginin Oluşumu, Güvenliği, Korunması ve Erişilebilirliği İlkeleri Kanıt (Evindence) Niteliği, Özgünlük, Doğruluk ve Güvenilirlik • • • Elektronik ortamda belgelerin kanıt niteliğini sürdürebilmeleri için dijital imza ve çoklu imza özeliklerinin tanımlanması gerekmektedir. Belgelerin özgünlüğü elektronik enformasyonla yakından bağlantılıdır. Elektronik ortamda özgünlüğü geçerli kılmak için çaba harcanması gerekmektedir (Duranti, 2001, s. 271). Bir bilgi kaynağının özgünlüğünün ortaya koyan temel bileşen içerdiği verilerin birinci el kanıt niteliğine sahip olmasıdır. Bu noktada belgeler için üretildiği ortam, format ve imza özellikleri özgünlük koşulları arasındadır. Bilgi ve belge kaynaklarının özgünlüğünün sağlanabilmesi ve korunabilmesi için üretimi, düzenlenmesi, transferi, erişimi ve korunması ile arşivlenmesine dönük sistematik uygulamaların izleniyor olması ve ilgili konularda standart uygulamaların yapılmasına gerekir (Electronic Records Management and Archives Management Policy, 2003).
Bütünlük • Belgeler genelde başka belgelerle ilgilileri ya da kendisine ait ekleri ile bir bütün olarak ele alınmak durumundadırlar. • Bir üst yazıya dayanak olan eklerin eksikliği yazının tümünün geçerliliğini sorgular duruma düşürebilir. • Bunun için belgelerin özellikle transferi ve arşivlenmesi aşamalarında dosya bütünlüğünün ve provenans ilişkilerinin korunması gerekir (Duranti, 2003). • TS 13298 Standardına göre de elektronik bilgi sistemlerinde belgeler; entelektüel, tanımsal ve fiziksel bütünlük içerisinde korunması gerekli görülmektedir (TS 13298, 2015). • Entelektüel bütünlük kapsamında; belge vasfı kazanmış elektronik dokümanların içeriğine herhangi bir müdahalenin yapılmaması, elektronik belgelerin herhangi bir sistem (yazılım, donanım, vs. ) bağımlılığına gerek olmadan mevcut teknolojilerle erişilebilir, okunabilir ve yorumlanabilir olmasının sağlaması beklenmektedir.
Sorumluluk, Erişilebilirlik, Okunabilirlik ve Elde Edilebilirlik • Sorumluluk (accountability), belgelerin kurumsal süreçlerin denetlenmesinde kullanılan araçlar olarak tanımlanması ile ilgilidir (Bearman, 1994; Thomassen, 2001, s. 373). • Kurumsal bilgi ve belge kaynaklarının gereksinim duyulan anda, istenilen kapsamda erişilebilir kılınması son derece önemlidir. • Bu noktada erişim ile ilgili yetkilendirmelerin yapılması gerekir. Belgeler diğer bilgi kaynakları gibi elden geldiğince çok kullanıcıya eriştirilmesi beklenen kaynaklar değildir. • Belgelerin önemli bir bölümü gizli ya da hizmete özel durumları söz konusudur. • Yine kişisel ve kurumsal mahremiyet, belgelerin içerdiği bilginin hassas yapısı üzerinde durulması gereken konular arasındadır. • Belgenin yetkilendirilmiş kişilere hızlı, doğru ve bütün olarak sunulabilmesi erişilebilirlik kapsamında değerlendirilmektedir. • Bilgi sistemleri kullanıcıların sistem içerisindeki fonksiyonlarını belirleyici nitelikte roller tanımlayabilmelidir.
Doğruya Giden Yolda Gerçek Ötesi ve Dijital Sapmalar • Kamuoyunu şekillendirmede nesnel olgulardan çok duygu ve inançların ön plana çıkmaya başladığı, • Sosyal medyanın özelleştirilebilir yapısından ötürü ortaya çıkan dijital gettolar, • Farklı kesimlerin gerçeği kendilerine göre eğip bükmesine olanak sağlayan iletişim ve teknoloji kanalları, • Uluslararası kamuoyunu elinde tutanların en doğru göründüğü dünya, sanırım 90’larda düşlenen dijital cennetten oldukça farklı bir çizgi çiziyor. • Peki bu bulanık mantık (fuzzy logic) labirentlerinde gerçeği, saf gerçeği nerede arayacağız ya da nerelerde aramamız gerekiyor.
Dijital yalanlardan gerçekliğe • • Ticari ya da sosyal kaygılarla doğruların eğilip bükülmesi, Gerçekliği doğrulanmadan ifade edilen kavramlar; Tarihin her döneminde gerçeğin, birinci el bilginin taşındığı, güvenilir arşiv kaynaklarının önemini bir kere daha hatırlatmıştır. İ İstihbarat örgütleri bilginin çarpıtılması ya da doğruları yanlış yönlendirmeyi, hatalı ya da ters bilgilendirmeyi bir taktik olarak yaygın biçimde kullandıkları bilinmektedir. Tarihte Napolyon’un Tek Avrupa Düşüyle işgal ettiği ülkelerdeki arşivleri Fransa’ya taşıması, Japonların II. Dünya savaşında Hong Kong arşivlerini yağmalaması (Bazin, 1995, s. 28, Külcü, 2002) Yakın Irak’ta ve Suriye’de yaşananlar aynı kapsamda değerlendirilebilir.
Sosyal Gettolar, Bilgi Simsarları, Bilgi Profesyonelleri ve Bilgi/Belge Yönetimi • • • Bilgi/Belge profesyonelleri için “doğru bilgi” bütünlüğü (integrity); geçerliliği (accuracy), güvenilirliği (reliability) ve özgünlüğü (authenticity) garanti altına alınmış kayıt altındaki veri demektir. Ancak günümüzde bilgi kaynaklarına güven ikinci plana itilebilmekte, yaşanan belirsizlik iklimince doğrunun nerede olduğu ya da doğruyu kimin savunduğu belirsizleşebilmektedir. Yayıncılık ve medya üzerine araştırmalar yürüten Pew Araştırma Merkezinin verilerine göre ortalama yetişkinlerin %62’si haberleri sosyal medya kaynaklarından sağlamaktadırlar (Gottfried and Shearer 2016). Öte yandan insanların sosyal medyadan okudukları haberlerin filtrelendiğini biliyoruz. Ayrıca buradaki hikayeler, öncelikle Facebook gibi şirketlerin karları göz önüne alınarak çeşitli algoritmalara dayanarak seçilmektedir (Greenwood, Perrin, and Duggan 2016).
Ütopyalardan Dystopialara • Sadece ABD’de toplam nüfusun %79’u tarafından düzenli olarak kullanılan Facebook üzerinde tuşlanan, beğenilen ve paylaşılan her şey kişilerin profilini, tercihlerini, eğilimlerini, politik düşüncelerini ve dünyaya dönük vizyonunu oluşturmaktadır. • Bu noktada Facebook ve kişilerin beklentileri birbiriyle çelişmektedir. • Eğer kişiler rahatsız olursa Facebook’da daha az zaman harcarlar. • Bu durumda doğruluğu çok ciddi tartışmalara yol açan olaylar karşısında bile sosyal medya, bizim dünyamızı kabul etmek durumunda kalmaktadır (Filloux, 2016). • Bu durumu ters ütopya (dystopia) kavramıyla açıklayan Kuhn (Kuhn, 2000), ütopik bir toplumun tersi olarak yeni biçim totaliterliği, toplumsal düşüncenin gettolarıyla açıklamaktadır (Kuhn 2000).
Mahremiyet ve Güvenlik • Benzer bir korku tablosu “kişisel veri” kavramı çerçevesinde oluşmaktadır. • Kişisel verilerin toplanması ve değerlendirmesine duyulan ilgi artmaktadır. • Devletin ve kuruluşların yükselen şiddet karşısında güvenlikçi politikalara yöneldiği bir iklimde, stratejik ve istihbarı bilginin toplanması, bilgiye erişim, kişisel veri ve mahremiyet kavramları arasındaki dengeyi korumak son derece zorlaşmaktadır (Hoback 2013). • Bu koşullarda kanıt niteliğinde birinci el kaynakların yer aldığı basılı ve dijital arşivlere, veri depolarına yönelik politikaların oluşturulması gerekmektedir.
Bilginin Doğrulanması
Dijital Verinin Kalite Kriterleri Elde edilebilirlik Kullanılabilirlik Erişebilirlik Tanım / Dokümantasyon Güvenilirlik Doğruluk Kullanabilirlik Güvenirlik Bütünlük Zamanlılık Üstveri Tutarlılık Yetki Tamlık Denetlenebilirlik İlgi Uygunluk Sunum Kalitesi Okunabilirlik Yapılandırma
E-Devlet Uygulamaları
t
Doğrulama Temelleri • Afetler ve son dakika haberleri ortaya çıkmadan önce doğrulama için plan ve prosedürleri ortaya koyun. • Doğrulama bir süreçtir. Doğrulama yolu her gerçekle değişebilir. • Kaynağı ve sağladığı içeriği doğrulayın. • Tanıklara, mağdurlara veya yetkili makamlara kaynak olarak güvenmeyin ve söylediklerini tekrar etmeyin. Bu tip sosyal medya hesapları duygu ile dolu, eksik ya da hatalı hatıralar içeren veya sınırlı bakış açısıyla şekillenen, yanlış veya hileli hesaplar olabilir. • "Bunu nasıl biliyorsun? " ve "Başka neler biliyorsun? " gibi sorular sorarak kaynağın doğruluğunu sorgulayın. • Diğer güvenilir kaynaklarla fotoğraf ve ses / video kayıtları gibi evraklar da dahil olmak üzere tüm verileri çapraz karşılaştırmaya tutun. • Kendinize "Doğrulamak için yeterince biliyor muyum? " sorusunu sorun. Kültürel, etnik ve dini karmaşıklıkları anlayacak derecede bilgiye sahip misiniz? • Ekip üyeleri ve uzmanlar ile işbirliği yapın; yalnız başınıza olmayın.
Kullanıcı Üretimi İçeriğin Doğrulanması • İçeriklerin hatalı, temizlenmiş, kesilmiş, bölünmüş ve / veya farklı bir içerikten tekrar paylaşıldığı varsayımından başlayın. • Kullanıcı üretimi içeriği doğrularken şu adımları izleyin: – Asıl kaynağı ve içeriği doğrulayın ve tanımlayın (yer, tarih ve yaklaşık zaman dahil) – Kaynağın doğruluğunu tartışın ve çapraz karşılaştırma yapın – İçeriği kullanmak için yazarından veya yaratıcısından izin alın (fotoğraflar, videolar, ses) • Kaynağın yükleyicisi hakkında her zaman bilgi toplayın ve temasa geçmeden önce mümkün olduğunca çok doğrulama yapın. Onlara direkt olarak gerçekten mağdur, tanık ya da içerik yaratıcısı olup olmadıklarını sorun.
Kimliği Doğrulamak Aşağıdaki online doğrulama araçlarını kullanarak iletişime geçeceğiniz kişinin sosyal medyadaki profil detaylarına ulaşabilirsiniz. • Any. Who: Tersine arama özelliği de olan ücretsiz beyaz sayfalar. (Yalnızca Amerika) • All. Area. Codes: Bir telefon numarasına karşılık gelen isim ve adres bilgileri. Belli bir ücret karşılığında beyaz sayfalarda listelenmeyen bilgileri de sunuyor. (Yalnızca Amerika) • Facebook Graph Search: Kullanıcıları isim, cinsiyet, yaşadıkları şehir, doğdukları şehir, beğendiği sayfalar, okudukları okul, çalıştıkları işyeri ve bunun gibi daha pek çok özellikle aramaya yarayan • Geo. Social Footprint: Bir kişinin konum servisi içeren tweetleri, sosyal platformlarda yaptığı check-inleri ve internette kullandığı dil seçenekleri üzerinden konumunu saptayan web site. • Hoverme: Bir Facebook kullanıcısının diğer sosyal medya platformlarındaki hesaplarını bulan bir Chrome eklentisi. • Identify: Herhangi bir sayfada bulduğunuz bir sosyal medya bağlantısı üzerinden kişinin diğer sosyal medyalarına ulaşmanızı sağlayan bir Firefox eklentisi. • Linkedin: Linkedin’deki iş geçmişi ve bağlantılarına bakaran bir kişinin kimliği ve hikayesi hakkında fikir edinebilirsiniz. • Muck Rack: Muck Rack editörleri tarafından Twitter, Facebook, Tumblr, Quora, Google+’da bağlantısı bulunan yüzlerce gazetecinin iletişim bilgilerinin toplandığı platform. • Numberway: Uluslararası telefon rehberi. • Person Finder: Bir felaketten etkilenen yakınlarını bulmak veya bulunan bir kişinin kaydını girmek isteyen kişilerce bilgilerinin sağlandığı dünyanın en büyük açık kaynaklı veri tabanlarından biri. Ne zaman bir felaket durumu söz konusu olsa Google Kriz Takımı bu aracı kuruyor. • Pipl. com: Bir kişinin internette bıraktığı ayak izlerini takip ederek farklı sosyal medya hesaplarındaki kimliğini, kamuya açık kayıtlarını ve iletişim bilgilerini buluyor. • Rapportive: Gmail eklentisi olarak çalışıyor ve mailleştiğiniz bir kişinin sosyal medya hesaplarını, konumunu, iş durumunu, iletişim bilgilerini sağlıyor. • Spokeo: Bir kişiyi isim, mail, telefon veya kullanıcı adıyla aratabiliyorsunuz. Sonuçlar kişinin yaş, cinsiyet, iletişim bilgileri, yaşadığı yer, eğitimi, evlilik durumu, aile geçmişi, ekonomik durumu ve fotoğraflarına kadar uzanabiliyor. • Web. Mii: Web linklerini bir kişinin adıyla aratabiliyor veya tanımlayamadığınız kişileri anahtar kelimelerle doğrulayabiliyorsunuz. Sahte profilleri ortaya çıkarabilen bir web görünürlük skoru sağlıyor. • WHOIS: Bir web sitesi domainini satın alan kişinin adı, konumu ve iletişim bilgilerini tespit ediyor.
Konumları doğrulamak Gerçekten olay kitlenin söylediği yerde mi gerçekleşiyor? • Flikr: : Konum bilgisi sağlanmış fotoğrafları aratın. • free-ocr. com: Görsel üzerine işlenmiş yazıları Google Translate ile çevirmenizi sağlamak veya başka haritalama kaynaklarında aramanız için çıkarıyor. • Google Maps: Online haritalama uygulaması. Dünyanın her yerinden yüksek çözünürlüklü uydu görüntüleri sağlıyor. Hava durumundan, yer yüzü özelliklerine kadar bir çok konuda bilgi sağlayabilir. • Google Translate: Farklı dillerde yazılmış ipuçlarını ortaya çıkarmak için kullanılabilir. • Météo-France: Fransa meteoroloji ajansı Avrupa odaklı radar ve uydu görüntüleri sağlıyor. Ayrıca iklim durumunu haritalıyor. • NASA Earth Observatory: Uydu görüntülerini halka açık paylaşmak için kuruldu. Küresel görseller, ücretsiz haritalar, fotoğraflar ve veri setleri için kullanışlı. • Panoramio: Google Maps aracılığıyla belli konumlara eklenmiş milyonlarca fotoğrafın yüklendiği paylaşım sitesi. • Picasa: search for geolocated photos. Konum bazlı fotoğrafları aratabilirsiniz. • United States ZIP Codes: Amerika Birleşik Devletleri’nde posta koduyla görsel arayabilirsiniz. • Wikimapia: Google Maps’in kitle kaynaklı versiyonu. • Wolfram Alpha: Bilişsel cevaplama motoru. Bir insana sorar gibi soru sorduğunuzda size sorunuzla alakalı cevapları listeliyor.
Görselleri doğrulamak • • Bu görsel gerçekten anlatılan hikayeye ait bir ipucu mu? Findexif. com: Görselin EXIF bilgilerini çıkarıyor. Foto Forensics: EXIF buluyor. Aynı zamanda ELA şeklinde kısaltılan görselin hata seviyesini sunuyor. Montajlanmış bir görseli anlamak için iyi bir yöntem sağlıyor. Google Search by Image: Görsel yükleyerek o görselin daha önce internette herhangi başka bir yerde kullanılıp kullanılmadığını, farklı boyutlarını bulabilirsiniz. Jeffrey’s Exif Viewer: Dijital bir fotoğrafın konum, tarih, hangi cihazla çekildiği gibi bilgilere erişebileceğiniz bir diğer EXIF bulma motoru. JPEGSnoop: Yalnızca Windows’ta çalışan bir görselin nerede montajlandığını gösteren bir program. İsmine rağmen AVI, DNG, PDF, THM veya gömülü JPEG dosyalarını da çalıştırabiliyor. Kamera tipi, lens ayarı, tarih gibi metadata bilgilerine de erişebiliyor. Tin. Eye: Bir diğer tersine görsel arama motoru.
Kullanışlı Diğer Araçlar • • • AIDR platform: Bilgisayar ve insan kaynaklı işletim sistemiyle Twitter izleme aracı. Ban. jo: Bütün sosyal medya platformlarında yer alan görsel ve etkinlikleri karşılıklı doğrulama ile bir araya getiren araç. Geofeedia: Belli bir bölgeden o anda herhangi bir sosyal medya hesabına yüklenen görsellerin veya gönderilen iletileri görmenize yarayan araç. İstediğiniz bölgeyi harita üzerinden seçerek gerçek zamanlı sosyal medya takibi yapılabiliyor. Huri. Search: 5 binin üzerinde insan hakları temelli web sitesinde arama yaparak güvenilir kaynaklar bulmanıza yardımcı oluyor. Informa. Cam: Farklı kişilerin birlerine doğrulama için dosya gönderebildikleri bir site. TOR ve PGP gibi kriptolu araçlar kullanarak doğrulanmasını istediğini dosyaları gönderebilrisiniz. People. Browsr: Kitle takibi yapabileceğiniz ve sosyal medyadaki kişilerin doğruluk skorlarını elde edebileceğiniz bir araç. Search. Systems. net: Halka açık kayıtları listeleyen uluslararası bir liste. Snopes. com: Farklı kaynaklardan doğrulama yaparak internet söylentilerini listeleyen web sitesi. Verily platform: Kullanıcılara spesifik sorular sormasını sağlayan ve kullanıcı üretimi içeriğin sağlamlaştırmasına çalışan platform. You. Tube Face Blur: Fişlenme, şiddete veya tehdite maruz kalma ihtimaline karşı, Youtube’a yüklediğiniz videolarda gözüken kişilerin yüzlerini mozaikleyebildiğiniz bir Youtube aracı.
21. yüzyılda bilgi/belge profesyonelleri ve arşiv merkezleri • Doğruyu (truth) korumak için internet aktivizmi olarak da tanımlanan ‘hacktivizm’ hareketlerine yönenilmekte (Thompson 2013), • Şifreleme ya da ‘block-chain’ gibi dağıtık bilgi işleme teknolojilerinden yararlanmaktadırlar (Underwood 2016; https: //syrianarchive. org). • Peki bu teknolojiler gerçekten de güvenilir mi? • Aynı zamanda belgeler, belgelerin üretimi, yönetimi ve korunması yöneticiler ve politikacılar için hesap verilebilirliğin tezahürü olarak nerede duruyor. • Öte yandan kayıtlı belge işlemlerindeki sorunlar hala kişileri ve kurumları zor duruma düşürebilmektedir (Blair 2010; Fukuyama 2014).
Dijital arşivler ve güvenilirlik • Üçüncü parti arşivleme uygulamaları, iletişim ve medya sektöründe asıl belgelerden çok sansasyonel bilgilerle çığ gibi büyümektedir. • Örneğin The Internet Archive, ABD başkanlık seçimi döneminde Donald Trump’a ait konuşma, görüşme ve/veya tartışmalardan oluşan 700 dosyalık bir arşiv yayımlamıştır. • Her ne kadar The Internet Archive web ortamının tarih kaydını oluşturmayı hedeflese de, ortaya çıkan ürün, kanıt niteliğindeki birinci el kaynakların yer aldığı gerçek arşivden çok ikincil kaynaklara dayanan daha spekülatif biri arşivdir (Leetaru 2017). • Bu çerçevede gerçeğin nerede durduğu, kimin sürümü olan tarihi olayların üstün geleceği, bu ortamda belgelerin ve arşivlerin kaynaklar olarak rolünün ne olacağı merak konusudur.
Gerçeğe giden yolda belgeler – Toplumsal yaşamda varlığımızı ortaya koyan her değer arkasında kanıt niteliğinde bir belge taşır. – Kimlik belgesinden taşınır ve taşınmazlara ait belgelere, diploma belgesinden sağlık ve sosyal güvencelerle ilgili belgelere, ticari işlerden iş ilişkilerine kadar belgeler toplumsal yaşamın teminatı ve kamusal düzenin dayanağıdır. – İş ve işlemlerin yürütme aracı, denetimin ana kaynağı olan belgeler, günlük işlerin ötesinde gelecek nesiller için bugüne ışık da tutarlar. – Mahkemelerden kişisel kararlara kadar hakları ve sorumlukların sınırlarını çizerler. – Sosyal güven ve birlikte yaşamanın temellerini oluştururlar. – Bu belgeler aynı zamanda kişisel ve kurumsal tarihin tek referans kaynağıdır. – Evrensel, insani, kültürel toplumsal, kişisel, politik, ekonomik ve etik çok yönlü ilişkilerin göstergesidir belgeler (Giddens 1984). – Somut veriler, bir diğer deyişle belgeler ve arşiv kaynakları olmadan tarih yazılamaz
Sonuç • Dijital dünyada güvenilir veri kaynaklarının çeşitlendirilmesi üzerine daha fazla çapa harcanmalıdır. • Bilgi/veri kaynaklarına erişim ve bilginin doğrulanması üzerine kamusal yatırımlar artırılmalıdır. • Veriye erişilebilirlik, kayıt (log) tutma ve hesap verebilirlik üzerine yasal düzenlemeler, bilgi politikaları geliştirilmedir. • Kişisel veri ve kurumsal mahremiyet ile erişim yetkilendirmeleri üzerine ilkeler belirlenmelidir. • Sosyal medya analizi, sosyal medyada bilginin doğrulanması ve bilgi kalitesi üzerine ulusal ölçekte çalışma grupları oluşturulmalıdır. • Güvenirlik ve inkar edilemezlik üzerine dijital imza dışındaki süreçler de yasal güvence altına alınmalıdır. • Bilgi merkezleri ve arşivler çalışmalarını doğru ve güvenilir bilginin dijital platformlarda sunumu üzerine yoğunlaştırmalıdırlar. • Bilgi ve Belge Yönetimi Bölümlerinin öncülüğünde, bilgi ve medya okuryazarlığı programları geliştirilmeli, ‘kamu spotları’ yayımlanmalıdır.
TEŞEKKÜRLER Gerçek Ötesi ve Dijital Çağda Bilginin Güvenilirliği Bilgi Merkezlerinin Sorumlulukları Üzerine Bir Deneme Prof. Dr. Özgür Külcü kulcu@hacettepe. edu. tr Hacettepe Üniversitesi Bilgi ve Belge Yönetimi Bölümü
Dijital Kürasyonun Kapsamı • Sürekli değişen donanım, yazılım ve depolama ortamları ile tehditler dijital koruma kavramının önemini artırmıştır. • Bu çerçevede aşağıdaki başlıklarla ilgili yol haritalarının, B planlarının ve kurumsal politikaların oluşturulması gerekmektedir: – Depolama ortamı, veri taşıyıcı sorunu ve donanımın ve yazılımın eskimesi – İçeriğin tamamının ya da içeriği tanımlayan bilgilerin kaybolması – İç ve dış çevreden kaynaklanan saldırılar – Ekonomik zorluklarla korumanın sürekli kılınamaması – Kurumsal algıdaki değişimler – Doğal afetler (Özbağ, 2010)
Büyük Veri Kaynağı Olarak Sosyal Medya Analizi • Sosyal ağ medyası, wikiler, RSS hizmetleri, bloglar, haber grupları, sohbet ve haber akışları için yazılım araçlarından oluşur. • Sosyal medya içeriğinin analizi kazıma (scraping), depolama, veri temizleme ve duygu analizi (sentiment analysis) konularıı kapsar. • Sosyal medya içeriğinin analizi için Twitter, Facebook ve haber hizmetleri tarafından sağlanan web tabanlı programlama arabirimlerinden (API'leri) yararlanılmaktadır. • Özellikle ticari beklentiler ve sosyal medya verilerinin siyasal ve sosyal araştırmalar için kullanılması potansiyeli sosyal medya analizi çalışmalarına duyulan ilgili artırmıştır.
Haber analizi (News analytics) • Haber analizi (News analytics): Metin tabanlı yapılandırılmamış veriler ve haber öykülerin içeriğinin çeşitli kalitatif ve niceliksel özelliklerinin ölçümü. • Bu özelliklerden bazıları; duyarlılık, ilgi düzeyi ve yeniliktir.
Fikir madenciliği (Opinion mining) • Fikir madenciliği (Opinion mining): Görüş, duygu madenciliği, fikir / duygu özütleme kavramları ile de açıklanır. • Doğal dilde yazılmış metinlerden insanın fikirlerini belirlemek için otomatik sistemler oluşturmaya çalışan araştırma alanıdır.
Kazıma (Scraping) • Kazıma: Sosyal medyadan ve diğer web sitelerinden çevrimiçi verilerin yapılandırılmamış metin şeklinde toplanması /kazınması işlemidir. • Web hasatı ve web içerik analizi şeklinde de tanımlanmaktadır.
Duyarlılık analizi (Sentiment analysis) • Duyarlılık analizi (Sentiment analysis). • Duygu analizi olarak da adlandırılır. • Doğal dil işleme, hesaplamalı dilbilimi ve metin analizlerine dayanarak, kaynak materyaldeki öznel bilgiyi tanımlamak ve ortaya çıkarmak için gerçekleştirilir.
Metin analizi (Text analytics) • Metin analizi (Text analytics) - Kelime frekans dağılımlarını, sözcüksel analiz, kalıp tanıma, etiketleme/açıklama, bilgi çıkarma, bağlantı ve ilişkilendirme analizi, görselleştirme ve tahmin analizini içeren metin üzerine veri madenciliği tekniklerini içerir.
Metin temizleme, etiketleme ve depolama • Metin veri temizlemede geleneksel bir yaklaşım, verileri bir elektronik tabloya çekilir ve daha sonra metni yeniden biçimlendirilir. • Örneğin, Google Refine 3, çeşitli biçimlerde veri temizliği ve dönüşümü için bağımsız bir masaüstü uygulamasıdır. • Dönüşüm ifadeleri, özel Google Refine İfade Dili (GREL) veya JYTHON (Java'da yazılan Python programlama dilinin bir uygulaması) ile yazılmıştır. • Ham verilerin türlerini ve kaynaklarını inceledikten sonra, yanlış, tutarsız veya eksik bilgileri kaldırmak için verileri temizleme aşamasına geçilmektedir. • Veri temizliği için stratejileri tartışmadan önce olası veri problemlerini tanımlamak önemlidir (Narang 2009):
Duygu analizi (Sentiment Analysis) • Duygu analizi veri madenciliği teknikleriyle gerçekleştirilir. • Genel olarak metin yazarının veya konuşmacının bir belgenin konusuna veya genel bağlamsal polaritesine göre ifade ettiği tavrı belirlemeyi amaçlamaktadır (Mejova 2009). • Pang ve Lee (2008), duygu polaritesi, pozitiflik dereceleri, öznelliğin tespiti, görüş belirleme, olgusal olmayan bilgiler, frekansa karşı terim, frekans, POS (parts of speech- konuşma bölümleri) dahil duygu sınıflandırması ve ekstraksiyonunun duygu analizinin temellerini oluşturduğunu belirtmektedir.
Duygu sınıflandırması • Duygu analizi, belirli alt görevlere ayrılır: – Düşünceler bağlamı - fikirleri ayıklamak için metnin "bağlamını" bilinmesi gerekir. Bu durum, uzman inceleme portallarından / beslemelerinden görüşlerin bir dizi konuyu kapsayabileceği genel forumlara kadar önemli ölçüde değişkenlik gösterir (Westerski 2008). – Duygu düzeyi - metin analizi, dokümanlar, cümle veya öznitelik düzeyinde gerçekleştirilebilir. – Duygu özniteliği - verilen bir metnin bir fikir ifade edip etmediğine karar vermek ya da olgusal olup olmadığını (yani, olumlu / olumsuz görüş belirtmeden) saptamaktır. – Duyarlılık yönü / polarite - metinde bir görüşün olumlu, tarafsız veya olumsuz olup olmadığına karar vermekte kullanılır. – Duygu gücü - metindeki bir görüşün “gücünü” belirleme: zayıf, hafif veya güçlü.
Duygu analizi • En zorlu analiz, argoya bağlı olarak duyarlılık yönelimini / kutupluluğunu ve gücünü - pozitif (harika, zarif, çok iyi, cool), nötr (fena değil, iyi gibi, kararsızım) ve negatif (korkunç, iğrenç, zayıf, berbat) tanımlamaktır. • Popüler bir yaklaşım, tüm kelimelere yönelim / kutupluluk puanları (+1, 0, − 1) vermek: olumlu görüş (+1), tarafsız görüş (0) ve olumsuz görüş (− 1). Vermektir. Metnin genel yönelim / kutupluluk puanı, bulunan tüm “fikir” kelimelerinin oryantasyon puanlarının toplamıdır. • Bununla birlikte, bu basit yaklaşımda, olumsuzlama (örneğin, bu ürün hakkında nefret ettiğim hiçbir şey yoktur) gibi çeşitli potansiyel problemler vardır. • Metnin duygu oryantasyonu / polaritesini tahmin etmenin bir yöntemi de, cümle kalıpları, bilgi teorisi ve istatistiklerden yararlanmaktır.
Kurumsal Araçlar (Business toolkits) • • • Kurumsal araçlar, kullanıcıların çeşitli ticari amaçlar için metni aramalarına, analiz etmelerine ve değerlendirmelerineolanak tanıyan ticari araçlardır. SAS Text Analytics programının bir parçası olan SAS Sentiment Analysis Manager, genel Web siteleri ve sosyal medya kuruluşları ve dahili organizasyon metin kaynakları dahil olmak üzere içerik kaynakları kazımak için kullanılabilir. Tüketicilerin, müşterilerin ifade edilen duygularını tanımlayan raporlar oluşturur. Rapid. Miner (Hirudkar ve Sherekar 2013), GNU AGPL kapsamında yayınlanan açık kaynaklı bir Toplum Sürümü ve aynı zamanda ticari bir lisans altında sunulan bir Enterprise Edition sunan popüler bir analiz aracıdır. Rapid. Miner, veri madenciliği ve makine öğrenim prosedürlerini içerir: veri yükleme ve dönüştürme (Ekstre, Dönüştürme, Yük, a. k. a. ETL), veri ön işleme ve görselleştirme, modelleme, değerlendirme ve dağıtım. Rapid. Miner Java'da yazılmıştır ve Weka makine öğrenim ortamından ve R projesinden istatistiksel modelleme şemalarından öğrenme şemaları ve öznitelik değerlendirmeleri kullanmaktadır. Diğer örnekler birçok OEM ve doğrudan müşteriler için ticari duyarlılık analiz motoru sağlayan Lexalytics; ve IBM SPSS İstatistikleri, sosyal bilimlerde istatistiksel analiz için en çok kullanılan programlar arasındadır.
Metin analiz araçları • Metin analiz araçları, doğal dil işleme ve metin analizi için geniş tabanlı araçlardır. • Metin analizi alanındaki şirketlerin örnekleri arasında, araçları geleneksel ve sosyal medyadan düşüncelerini, hislerini ve ifadelerini otomatik olarak filtreleyen ve birleştiren Open. Amplify ve Jodange yer almaktadır. • Ayrıca, akademik grupların ve sivil toplum kuruluşlarının (STK) kaynak bulma, arama ve analiz etme amacıyla ürettiği çok sayıda açık kaynak araç bulunmaktadır. • Örnekler arasında Stanford NLP grup araçları (Stanford NLP group tools) ve Ling. Pipe içerisinde insan dilinin dilbilimsel analizi için bir Java kütüphanesi paketi bulunmaktadır (Teufl et al 2010).
Metin analiz araçları • Özellikle duygu analizi için çeşitli açık kaynaklı metin analiz araçları mevcuttur. • Açık kaynak kodlu bir popüler metin analiz aracı da açık kaynak Python modülleri, dilbilimsel veri ve metin analitiği belgelerini içeren Python NLTK - Doğal Dil Araç Seti'dir (Natural Language Toolkit) (www. nltk. org/). Bir diğeri GATE (http: //gate. ac. uk/sentiment)’dir. • Ayrıca giriş belgelerinde otomatik duyarlılık analizi yapan Lexalytics Sentiment Toolkit'den de bahsedebiliriz. • Bu araç çok sayıda belgede kullanıldığında daha güçlüdür, ancak veri kazıma gerçekleştirmez. • Metin madenciliği için diğer ticari yazılımlar şunlardır: Aero. Text, Attensity, Clarabridge, IBM Language. Ware, Anketler için SPSS Text Analytics, Dil Bilgisayar Şirketi, STATISTICA Text Miner ve Word. Stat.
Veri görselleştirme araçları • Veri görselleştirme araçları, iş zekası (business intelligence, BI) yetenekleri sağlar ve farklı kullanıcı türlerinin "büyük" verilerden bilgi edinmesine imkan yaratır. • Kullanıcılar, mobil cihazlar (akıllı telefonlar ve tabletler) aracılığıyla, cihazların çoğunda bulunan etkileşimli kullanıcı arayüzleri aracılığıyla keşif analizi yapabilirler. • Veri görselleştirme araçları, kullanıcıların daha önce gizlenmiş olan verilerdeki eğilimleri ve ilişkileri tanımlamasına yardımcı olur. • Veriler üzerinde hızlı ad hoc görselleştirme, kalıpları ve aykırı değerleri ortaya çıkarabilir ve analizler Apache Hadoop veya Amazon Kinesis gibi büyük ölçekli veri kümeleri üzerinde gerçekleştirilebilir. • İki önemli görselleştirme aracı SAS Visual Analytics ve Tableau'dur.
Yararlanılan Kaynaklar • • • • • • Alan, F. K. , Sanil, A. P. , Sacks, J. (2001). Workshop Report: Affiliates Workshop on Data Quality, North Carolina: NISS. Alexander, J. E. , ve Tate, M. A. (2009). Web wisdom: How to evaluate and create information on the web, Mahwah, NJ: Erlbaum. Batrinca, B, Treleaven, P. C. (2014). Social media analytics: a survey of techniques, tools and platforms. AI & SOCIETY 30 (1): 89– 116. Cai, L. and Zhu, Y. , (2015). The Challenges of Data Quality and Data Quality Assessment in the Big Data Era. Data Science Journal. 14, p. 2. DOI: http: //doi. org/10. 5334/dsj-2015 -002. Cappiello, C. , Francalanci, C. , & Pernici, B. (2004) Data quality assessment from user‘s perspective. Procedures of the 2004 International Workshop on Information Quality in Information Systems, New York: ACM, ss. 78– 73. Cioffi-Revilla C (2010) Computational social science. Wiley Interdiscip Rev. Computational Statistics 2 (3): 259– 271. Feng, Z. Y. , Guo, X. H. , Zeng, D. J. , et al. (2013) On the research frontiers of business management in the context of Big Data. Journal of Management Sciences in China 16 (01), ss. 1– 9. Gantz, J. , & Reinsel, D. (2012) The Digital Universe In 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. Retrieved February, 2013 from the World Wide Web: http: //www. emc. com/collateral/analyst-reports/idc-digital-universe-western-europe. pdf Hirudkar, A. M. , Sherekar S. S. (2013). Comparative analysis of data mining tools and techniques for evaluating performance of database system. Internationa journal of Computer Science and Applications 6 (2): 232– 237. Katal, A. , Wazid, M. , ve Goudar, R. (2013) Big Data: Issues, Challenges, Tools and Good Practices. Procedures of the 2013 Sixth International Conference on Contemporary Computing, Noida: IEEE, ss. 404– 409. Knight, S. , & Burn, J. (2005) Developing a Framework for Assessing Information Quality on the World Wide Web. Information Science Journal 18, ss. 159– 171. Mejova Y. (2009). Sentiment analysis: an overview, ss. 1 -34. http: //www. academia. edu/291678/Sentiment_Analysis_An_Overview. Murphy, K. P. (2012). Machine learning: a probabilistic perspective. In: Chapter 1: Introduction. MIT Press, ss. 1– 26 Pang, B. ve Lee L. (2008). Opinion mining and sentiment analysis. Found Teufl, P. , Payer U. ve Lackner G. (2010). From NLP (natural language processing) to MLP (machine language processing). In: Kotenko I, Skormin V (Ed. ) Computer network security, Springer, Berlin Heidelberg, ss. . 256– 269. Thomson Reuters. (2010). Thomson Reuters news analytics. http: //thomsonreuters. com/products/financial-risk/01_255/News_Analytics_-_Product_Brochure_Oct_2010_1_. pdf. Accessed 1 Oct 2013 Thomson Reuters. (2012). Thomson Reuters machine readable news. http: //thomsonreuters. com/products/financial-risk/01_255/TR_MRN_Overview_10 Jan 2012. pdf. Accessed 5 Dec 2013 Thomson Reuters. (2012). Thomson Reuters Market. Psych Indices. http: //thomsonreuters. com/products/financial-risk/01_255/TRMI_flyer_2012. pdf. Thomson Reuters. (2012). Thomson Reuters news analytics for internet news and social media. http: //thomsonreuters. com/businessunit/financial/eurozone/112408/news_analytics_and_social_media. Thomson Reuters. (2013). Machine readable news. http: //thomsonreuters. com/machine-readable-news/? subsector=thomson-Trends Information Retrieval 2 (1– 2): 1– 135 SAS Institute Inc. (2013). SAS sentiment analysis factsheet. http: //www. sas. com/resources/factsheet/sas-sentiment-analysis-factsheet. pdf. Shanks, G. , & Corbitt, B. (1999). Understanding data quality: Social and cultural aspects. Procedures of the 10 th Australasian Conference on Information Systems , Wellington: MCB University Press Ltd. , ss. 785– 797. Wang, R. Y. , & Strong, D. M. (1996) Beyond Accuracy: What Data Quality Means to Data Consumers. Journal of Management Information Systems 12 (4), ss. 5– 33.
TEŞEKKÜRLER Gerçek Ötesi ve Dijital Çağda Bilginin Güvenilirliği Bilgi Merkezlerinin Sorumlulukları Üzerine Bir Deneme Prof. Dr. Özgür Külcü kulcu@hacettepe. edu. tr Hacettepe Üniversitesi Bilgi ve Belge Yönetimi Bölümü
- Slides: 45