BC:xmudrak2: Porovnání verzí

Z FI WIKI
Přejít na: navigace, hledání
(Extrakce dat z prezentačních dokumentů - zadání: Přidán úvod)
(aktualizace informací o Aperture)
Řádka 14: Řádka 14:
 
=== [http://aperture.sourceforge.net Aperture] ===
 
=== [http://aperture.sourceforge.net Aperture] ===
 
Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů,
 
Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů,
jejíž alpha verze byla vypuštěna letos ( r.2006 ) v březnu. Jejími autory jsou
+
jejíž alfa verze byla vypuštěna letos ( r.2006 ) v březnu.
[http://www2.dfki.de/web/ DFKI] a [http://www.aduna-software.com/home/overview.view Aduna] .
+
Jejími autory jsou [http://www2.dfki.de/web/ DFKI] a [http://www.aduna-software.com/home/overview.view Aduna].
Tato knihovna ve svých cílech překračuje předběžné zadání této práce, ať už v počtu
+
 
podporovaných formátů, ve způsobu získávání zdrojových dokumentů, nebo ve způsobu uchovávání
+
Tato knihovna je vhodná především při získávání zdrojových textů a metadat potřebných pro vytvoření textových korpusů. Nezaměřuje se ale přitom na zachycení logické struktury dokumentu, takže není
informací. Sporná je ovšem její současná funkčnost a přenositelnost  na systémy odlišné od Windows - jak se zdá, některá API, která Aperture používá  Win32 knihovny.
+
vhodná pro konverzní nástroje.
 +
 
 +
V současné době knihovna  v omezené formě podporuje tyto základní funkce:
 +
* získání zdrojového souboru
 +
* získání čistého textu
 +
* vygenerování metadat ( ve smyslu korpusových metainformací jako jsou např. autor, datum vydání, zdroj apod. )
 +
 
 +
Do budoucna se ještě počítá s následujícími funkcemi:
 +
* uložení dat pomocí [http://www.openrdf.org/about.jsp Sesame]
 +
* prohledávání jak fulltextově, tak na základě metadat ( pomocí [http://lucene.apache.org/java/docs/index.html Lucene] )
  
 
== Formáty prezentačních dokumentů a možnosti jejich zpracování ==
 
== Formáty prezentačních dokumentů a možnosti jejich zpracování ==

Verze z 23. 11. 2006, 23:45

Extrakce dat z prezentačních dokumentů - zadání

Jedním z důležitých zdroju informací jsou prezentace. Tento typ dokumentu je specifický svou strukturou a častým použitím grafických prvku, a tak není příliš vhodný pro použití mimo plátna datových projektorů.

Přesto prezentace často obsahují informace, které by bylo užitečné publikovat. Cílem tohoto dokumentu je popsat strukturu nejrozšířenějších formátů prezentačních dokumentů a možné způsoby extrakce jejich informací. Zaměřím se přitom především na řešení, která by umožňovala vytvořit aplikace nezávislé na použité platformě, pouze za použití jazyku Java.

Existující projekty odpovídající předběžnému zadání

Aperture

Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů, jejíž alfa verze byla vypuštěna letos ( r.2006 ) v březnu. Jejími autory jsou DFKI a Aduna.

Tato knihovna je vhodná především při získávání zdrojových textů a metadat potřebných pro vytvoření textových korpusů. Nezaměřuje se ale přitom na zachycení logické struktury dokumentu, takže není vhodná pro konverzní nástroje.

V současné době knihovna v omezené formě podporuje tyto základní funkce:

  • získání zdrojového souboru
  • získání čistého textu
  • vygenerování metadat ( ve smyslu korpusových metainformací jako jsou např. autor, datum vydání, zdroj apod. )

Do budoucna se ještě počítá s následujícími funkcemi:

  • uložení dat pomocí Sesame
  • prohledávání jak fulltextově, tak na základě metadat ( pomocí Lucene )

Formáty prezentačních dokumentů a možnosti jejich zpracování

PowerPoint

POI

Nejvhodnější API pro extrakci textu z prezentací vytvořených pomocí aplikace PowerPoint je pravděpodobně POI (Poor Obfuscation Implementation). Na rozdíl od ostatních API jako např. PowerML je POI šířeno pod Apache licencí a podporuje i OLE( Object Linking Embedded ), které PowerPoint využívat. Bohužel jsem nikde nenalezl seznam podporovaných verzí PowerPointu, nicméně se dá předpokládat, že by měly být podporovány všechny verze využívající Microsoft Compound Document Format.

PowerML

PowerML je je další API sloužící pro zpracování prezentace ve formátu PowerPoint. Mezi jeho výhody patří jednoduché ovládání a možnost exportovat prezentaci přímo do XML ( přesnějí PowerML - což je XML podle tohoto XMLSchema. Hlavní nevýhodou tohoto API je nemožnost nahlédnout do zdrojového kódu a pomalý postup při pouhé extrakci textu. PowerML totiž převádí pomocí BASE6 podporované mediální soubory přímo do XML souboru.

Ostatní

Skupinu ostatních API, která by byla schopná pracovat s formátem PowerPointu tvoří placený software:


Corel Presentations

Podle dokumentace Aperture jsou soubory formátu Corel Presentations zpracovatelné knihovnou POI, alespoň k extrahování textu (bez metadat).

OpenOffice Impress

Ačkoliv lze použít vestavěné API, výsledek by pravděpodobně nebyl přenositelý na systémy, které nemají OpenOffice nainstalován.

KPresenter

Prozatím nezkoumáno.