SGMLXML w zarzdzaniu dokumentami Publikowanie treci 1 SGMLXML
SGML/XML w zarządzaniu dokumentami. Publikowanie treści. 1
SGML/XML – przydatne cechy Oddzielenie znaczenia tekstu od sposobu jego prezentacji. Zalety: n jedno źródło, n wiele różnych publikacji, n redukcja nadmiarowości, n uproszczone zarządzanie i aktualizacja. 2
SGML/XML – przydatne cechy Stworzenie najodpowiedniejszego modelu dla naszych informacji. Wyciskamy maksimum informacji z dokumentów: n wyszukiwanie, n kategoryzacja, n automatyczne przetwarzanie: n indeksy, n linkowanie, n nowe dokumenty na podstawie starych. 3
Najodpowiedniejszy model Przykłady: n encyklopedia: <nazwisko>, <imie>, <ur>, <zm>, <wymowa>, <etymologia>, <liczba-mieszk> n prawo: <promulgator>, <rocznik>, <poz>, <art> <sąd>, <sygn-wyroku>, <teza> n dokument techniczny: <part-number>, <function-name> n patenty: <wynalazca>, <nr-zgłoszenia> n ubezpieczenia: <data-polisy>, <wart-polisy> 4
Wyszukiwanie w metainformacjach. Wyszukiwanie pełnotekstowe – z możliwością ograniczenia obszaru wyszukiwania do wybranych elementów: n Słowacki: n Słowacki Raj n słowacki polityk n. . . n Słowacki in nazwisko: n Słowacki, Juliusz 5
Wyszukiwanie – inny pomysł Wykorzystanie modelu wiedzy o przeszukiwanej rzeczywistości. Szukaj: niebieski opel corsa 80% podobieństwa Sprzedam granatowego opla corsę z 1999 roku. Tel. (22) 123 45 67. kolor niebieski jest podobny do granatowego w 80% Sprzedam <kolor>granatowego </kolor> <marka>opla</marka> Sprzedam <kolor>granatowego <model>corsę</model> z </kolor> <marka>opla</marka> <rocznik>1999</rocznik> <model>corsę</model> roku. z <model>corsę</model> z Tel. (22) 123 45 67. <rocznik>1999</rocznik> roku. 6
Dowiązania Rodzaje dowiązań: n między (całymi) dokumentami, n między zawartościami dokumentów, n jedno- lub dwukierunkowe, n o dwóch lub więcej końcach. Funkcje dowiązań: n dołączanie grafiki, n dołączanie subdokumentów, n zarządzanie wersjami (wariantami), n linki semantyczne, przenoszące znaczenie specyficzne dla projektu: n typ linku, n metainformacje na linkach. 7
Linki semantyczne Nadanie znaczenia linkom: n wyszukiwanie z użyciem faktów, n efektywna nawigacja, n automatyczne przetwarzanie. <OSOBA-MOWIACA><KSIAZE ID-KRAJU=”d 1”>Hamlet<KSIAZE></OSOBA -MOWIACA> <WYPOWIEDZ><KRAJ ID=”d 1”>Dania</KRAJ> jest więzieniem. </WYPOWIEDZ> książę - kraj 8
Linki semantyczne – przykłady Encyklopedia: n urodzony w, n syn, ojciec, n tworzył pod wpływem, n jest/był prezydentem. Prawo: n na podstawie aktu, n zmiana aktu, n uchylenie aktu. Dokumentacja techniczna: n składa się z, n nadklasa – podklasa. 9
Subdokumenty . . . <art nr=” 2. ”>Przywóz wody nienie jest objęty cłem</art> objęty cłem. </art> <art nr=” 3. ”>Cło na przywóz <art-ref id=”art 3”/> śniegu. . . wynosi 30%</art>. . . Dotychczasowy artykuł 3. o treści: „<art-ref id=”art 3”/>” zastępuje się nowym o treści: . . . <art nr=” 3. ”>Cło na przywóz śniegu wynosi 30%. </art> 10
Zarządzanie wersjami Przechowywanie wersji dokumentu z kolejnych edycji: n możliwość łatwego powrotu do wcześniejszej wersji. Wydania (releases) / rewizje: n dokument w momencie publikacji jest zamrażany, n aby wprowadzić zmiany, trzeba założyć nowe wydanie, n nowe wydanie przechodzi cały cykl życia w systemie, aż do publikacji. Zarządzanie zmianami semantycznymi w dokumentach: n przykłady: n nowelizacje aktów prawnych, n dokumentacja kolejnych wersji urządzenia; n zapobieganie redundancji części dokumentu wspólnych dla wszystkich wersji. 11
Warianty dokumentów (1) 1. 04. 2002 <akt>. . . <art nr=” 2. ”>Przywóz wody nie jest objęty cłem. </art> <art nr=” 3. ”>Cło na przywóz śniegu wynosi 30%. </art>. . . </akt> <akt>. . . <art nr=” 2. ”>Przywóz wody nie jest objęty cłem. </art> <art nr=” 3. ”>Cło na przywóz zamrożonej wody wynosi 30%. </art>. . . </akt> 12
Warianty dokumentów (2) <akt>. . . <art nr=” 2. ”>Przywóz wody nie jest objęty cłem. </art> <wariant-ref id=”a 436”/>. . . </akt> od=* do=31. 03. 2002 <art nr=” 3. ”>Cło na przywóz śniegu wynosi 30%. </art> od=1. 04. 2002 do=* <art nr=” 3. ”>Cło na przywóz zamrożonej wody wynosi 30%. </art> 13
Aktualizacja "twardych faktów" "Twarde" fakty: n dane liczbowe, statystyczne, n okresowo się zmieniające lub uaktualniane. Ta sama informacja (np. liczba mieszkańców Danii) występuje w wielu miejscach: n w tekście hasła "Dania", n w tabeli pokazującej zmiany liczby mieszkańców Danii w czasie, n w zbiorczej tabeli danych krajów europejskich. Jak nie dopuścić do redundancji: n przechowujemy "twarde" fakty w jednej kopii w tabeli, n modelujemy w dokumentach miejsce ich wstawienia. 14
Aktualizacja "twardych faktów" – przykład <haslo id=”dk”><tytul>Dania</tytul>. . . <treść>Liczba mieszkańców: <wstaw-akt-lm/> (<wstaw-akt-lm-rok/>). </treść> </haslo> select akt_lm_rok from liczba_mieszk where panstwo=”dk” select akt_lm from liczba_mieszk where panstwo=”dk” 15
Operacje na dokumentach i ich zawartości Split / join: n podział dokumentu SGML/XML na kilka dokumentów zgodnie ze strukturą dokumentu, n niezależny byt dokumentów skłądowych, n połączenie w całość. Wirtualne dokumenty: n kolekcja dokumentów określonych typów, n traktowana jako pojedynczy dokument: n check-out: złożenie treści wirtualnego dokumentu, n check-in: rozbicie zawartości na dokumenty składowe. 16
Import i eksport Import: n interaktywny: możliwość zaimportowania pojedynczych dokumentów przez użytkowników, n masowy: n zasilanie systemu zastanymi danymi, n konwersje do SGML-a / XML-a. Eksport: n publikowanie zawartości. 17
Zarządzanie dokumentami vs. publikowanie Czy system zarządzania dokumentami powinien być jednocześnie systemem publikacyjnym (zawierać system publikacyjny)? Za: n zarządzamy po to, aby opublikować, n niekiedy konieczność przechowania informacji zwrotnej z systemu składu (np. informacji o łamaniu stron). Przeciw: n istnieją wyspecjalizowane systemy składu, n niebezpieczeństwo podporządkowania procesów zarządzania dokumentami kształtowi przyszłej publikacji. 18
Paradygmat neutralnej puli zasobów Selekcja materiału Przetwarzanie, skład Przeglądarka Scentralizowana pula zasobów 19
Przykład: Planeta Actimedia Lemma Pool woda (chem. ) woda (leks. ) wódka woda ognista used in automatic creation Entry Pool woda (encykl. ) woda (chem. ) woda (leks. ) woda (słown. ) woda (leks. ) woda ognista woda (enc. chem. ) woda (chem. ) Works Encyklpopedia Powszechna woda (encykl. ). . . Encyklopedia Chemii woda (enc. chem. ). . . Słownik Jęz. Polskiego woda (słown. ) 20
System generyczny Konfiguracja: n typów dokumentów: n SGML/XML: każda DTD definiuje osobny typ, n katalogów i ich dopuszczalnej zawartości, n metainformacji, n typów dowiązań, n schematu przepływu prac, n uprawnień, n. . . 21
System otwarty Możliwość implementacji logiki biznesowej na bazie funkcjonalności systemu: n operacje wyzwalane przed lub po standardowych operacjach, n przedefiniowanie standardowych operacji, n dodawanie nowych funkcjonalności. Wymagania: n API pozwalające na dostęp do obiektów logiki systemu, n rozszerzalny interfejs użytkownika. 22
Wdrożenie systemu zarządzania dokumentami Analiza wymagań: n konfrontacja wymagań z podstawową funkcjonalnością systemu, n wybór systemu zarządzania dokumentami. Projektowanie: n projekt konfiguracji (w tym: typy dokumentów, DTD), n projekt warstwy logiki biznesowej, n projekt implementacji logiki biznesowej w oparciu o logikę systemu. Implementacja logiki biznesowej. Wdrożenie: n instalacja, konfiguracja, n integracja z innymi systemami (np. systemem składu), n konwersja zastanych danych, zasilenie systemu. Szkolenia. Pielęgnacja, wsparcie. 23
XML: jedno źródło, wiele publikacji Wielokrotne publikowanie tego samego materiału: n w postaci książki, n jako witryny WWW, n na CD-ROMie wymaga różnych sposobów przetwarzania. XML oddziela znaczenie treści od sposobu jej formatowania. 24
XML: jedno źródło, wiele publikacji źródło XML treść + znaczenie skład i łamanie XSL Przeglądarka Styl elegancki Styl COOL! XSL Przeglądarka Styl standardowy 25
Publikowanie WWW – dzisiaj Wygląd połączony z danymi. Skrypty generujące stronę w Perlu, PHP, ASP zawierające kawałki kodu HTML. Niedoskonały język komunikacji – HTML. Strona WWW nie może być źródłem informacji dla innego komputera. Brak podziału ról: n redakcja treści, n redakcja graficzna, n organizacja. 26
Publikowanie WWW w modelu trójwarstwowym XML Bazy danych Artykuł Wynikowy XML TXT HTML Pliki XML Nagłówek XML XSL Serwer WWW XML Przeglądarka Konfiguracja Inne źródła 27
Narzędzia Systemy zarządzania dokumentami: n sigmalink, empolis www. empolis. com n Open. Market www. openmarket. com n Documentum, n Astoria, Chrystal Software / Xerox, n Parlance Document Manager, Xyvision, n Texcel, n POET, POET Software. 28
Narzędzia edycyjne: n Epic Editor, Arbortext www. arbortext. com n XML Spy, Icon Information Systems n XMeta. L, Soft. Quad www. xmlspy. com www. xmetal. com n XML Notepad, Microsoft n Xeena www. alpha. Works. ibm. com/tech/xeena n XMLwriter n XML Instance, Extensibility n. . . 29
Narzędzia Systemy składu i łamania: n E 3, Arbor. Text, n Frame. Maker+SGML, Adobe, n 3 B 2, Advent, n Ventura Publisher, Corel, n Word. Perfect, Corel. Narzędzia do tworzenia publikacji elektronicznych: n NXT 3, Next. Page www. nextpage. com n Open. Market www. openmarket. com n Cocoon xml. apache. org/cocoon n Zope www. zope. org Wyszukiwanie: n orenge, empolis www. km. empolis. com 30
- Slides: 30