BC:xmudrak2

Z FI WIKI
Přejít na: navigace, hledání

Extrakce dat z prezentačních dokumentů - zadání

Jedním z důležitých zdroju informací jsou prezentace. Tento typ dokumentu je specifický svou strukturou a častým použitím grafických prvku, a tak není příliš vhodný pro použití mimo plátna datových projektorů.

Přesto prezentace často obsahují informace, které by bylo užitečné publikovat. Cílem tohoto dokumentu je popsat strukturu nejrozšířenějších formátů prezentačních dokumentů a možné způsoby extrakce jejich informací. Zaměřím se přitom především na řešení, která by umožňovala vytvořit aplikace nezávislé na použité platformě, pouze za použití jazyku Java.

Existující projekty odpovídající předběžnému zadání

Aperture

Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů, jejíž alfa verze byla vypuštěna letos ( r.2006 ) v březnu. Jejími autory jsou DFKI a Aduna.

Tato knihovna je vhodná především při získávání zdrojových textů a metadat potřebných pro vytvoření textových korpusů. Nezaměřuje se ale přitom na zachycení logické struktury dokumentu, takže není vhodná pro konverzní nástroje.

V současné době knihovna v omezené formě podporuje tyto základní funkce:

  • získání zdrojového souboru
  • získání čistého textu
  • vygenerování metadat ( ve smyslu korpusových metainformací jako jsou např. autor, datum vydání, zdroj apod. )

Do budoucna se ještě počítá s následujícími funkcemi:

  • uložení dat pomocí Sesame
  • prohledávání jak fulltextově, tak na základě metadat ( pomocí Lucene )

Formáty prezentačních dokumentů a možnosti jejich zpracování

PowerPoint

MS PowerPoint je jednoznačně nejpoužívanějším programem ve své kategorii a to i v akademické obci. A stejně jako ostatní aplikace z balíku MS Office využívá k uchování struktury dokumentu Microsoft Compound Document File Format. Jedná se o obecný způsob uložení struktury dokumentu, který sice nebyl firmou Microsoft přesně popsán, nicméně jeho dokumetace je dostupná např. na stránkách Openoffice.

Jedna z mála výhod tohoto formátu je naštěstí zpětná kompatibilita, jednotlivé verze se liší pouze množstvím vizuálních prvků a logická struktura dokumentu je uchovávána vždy shodně, takže není nutné ošetřovat každou verzi zvlášť.

POI

Nejvhodnější API pro extrakci textu z prezentací vytvořených pomocí aplikace PowerPoint je pravděpodobně POI (Poor Obfuscation Implementation). Na rozdíl od ostatních API jako např. PowerML je POI šířeno pod Apache licencí a podporuje i OLE( Object Linking Embedded ), které může PowerPoint využívat.

PowerML

PowerML je je další API sloužící pro zpracování prezentace ve formátu PowerPoint. Mezi jeho výhody patří jednoduché ovládání a možnost exportovat prezentaci přímo do XML ( přesnějí PowerML - což je XML podle tohoto XMLSchema. Hlavní nevýhodou tohoto API je nemožnost nahlédnout do zdrojového kódu a pomalý postup při pouhé extrakci textu. PowerML totiž převádí pomocí BASE64 podporované mediální soubory přímo do XML souboru.

Ostatní API pro zpracování formátu aplikace MS PowerPoint

Skupinu ostatních API, která by byla schopná pracovat s formátem PowerPointu tvoří placený software:


Corel Presentations

Podle dokumentace Aperture jsou soubory formátu Corel Presentations sice zpracovatelné knihovnou POI, alespoň pouze k extrakci čistého textu. Dosud se nepodařilo najít vhodné API pro zpracování tohoto formátu.

OpenOffice Impress & KPresenter

Obě dvě aplikace používají OpenDocument file format, přesněji jeho varinatu pro prezentace Impress. Jelikož výsledný dokument představuje ZIP archiv se všemi informacemi uloženými pomocí XML ( kromě netextových entit a deklarace MIME typu ), je jakýkoliv převod poměrně snadný a není proto třeba externího API. Navíc je tento formát výborně dokumentován. Více informací je ovšem možné získat na stránkách OASIS.