BC:xmudrak2

Z FI WIKI
Přejít na: navigace, hledání

Extrakce dat z prezentačních dokumentů - zadání

Existující projekty odpovídající předběžnému zadání

Aperture

Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů, jejíž alpha verze byla vypuštěna letos ( r.2006 ) v březnu. Jejími autory jsou DFKI a Aduna . Tato knihovna ve svých cílech překračuje předběžné zadání této práce, ať už v počtu podporovaných formátů, ve způsobu získávání zdrojových dokumentů, nebo ve způsobu uchovávání informací. Sporná je ovšem její současná funkčnost a přenositelnost na systémy odlišné od Windows - jak se zdá, některá API, která Aperture používá Win32 knihovny.

Formáty prezentačních dokumentů a možnosti jejich zpracování

PowerPoint

POI

Nejvhodnější API pro extrakci textu z prezentací vytvořených pomocí aplikace PowerPoint je pravděpodobně POI (Poor Obfuscation Implementation). Na rozdíl od ostatních API jako např. PowerML je POI šířeno pod Apache licencí a podporuje i OLE( Object Linking Embedded ), které PowerPoint využívat. Bohužel jsem nikde nenalezl seznam podporovaných verzí PowerPointu, nicméně se dá předpokládat, že by měly být podporovány všechny verze využívající Microsoft Compound Document Format.

PowerML

PowerML je je další API sloužící pro zpracování prezentace ve formátu PowerPoint. Mezi jeho výhody patří jednoduché ovládání a možnost exportovat prezentaci přímo do XML ( přesnějí PowerML - což je XML podle tohoto XMLSchema. Hlavní nevýhodou tohoto API je nemožnost nahlédnout do zdrojového kódu a pomalý postup při pouhé extrakci textu. PowerML totiž převádí pomocí BASE6 podporované mediální soubory přímo do XML souboru.

Ostatní

Skupinu ostatních API, která by byla schopná pracovat s formátem PowerPointu tvoří placený software:


Corel Presentations

Podle dokumentace Aperture jsou soubory formátu Corel Presentations zpracovatelné knihovnou POI, alespoň k extrahování textu (bez metadat).

OpenOffice Impress

Ačkoliv lze použít vestavěné API, výsledek by pravděpodobně nebyl přenositelý na systémy, které nemají OpenOffice nainstalován.

KPresenter

Prozatím nezkoumáno.