BC:xmudrak2: Porovnání verzí

Z FI WIKI
Přejít na: navigace, hledání
m (Stránka BC:xmudrak přemístěna na stránku BC:xmudrak2: uprava loginu)
(Doplněny základní informace o formátech prezentací a API)
Řádka 2: Řádka 2:
  
 
* [https://is.muni.cz/auth/rozpis/tema.pl?fakulta=1433;obdobi=3084;kodomez=mysemsk-;typtem=af;balik=1275;tema=16744 předběžné zadání IS]
 
* [https://is.muni.cz/auth/rozpis/tema.pl?fakulta=1433;obdobi=3084;kodomez=mysemsk-;typtem=af;balik=1275;tema=16744 předběžné zadání IS]
 +
 +
== Existující projekty odpovídající předběžnému zadání ==
 +
 +
=== [http://aperture.sourceforge.net Aperture] ===
 +
Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů,
 +
jejíž alpha verze byla vypuštěna letos ( r.2006 ) v březnu. Jejími autory jsou
 +
[http://www2.dfki.de/web/ DFKI] a [http://www.aduna-software.com/home/overview.view Aduna] .
 +
Tato knihovna ve svých cílech překračuje předběžné zadání této práce, ať už v počtu
 +
podporovaných formátů, ve způsobu získávání zdrojových dokumentů, nebo ve způsobu uchovávání
 +
informací. Sporná je ovšem její současná funkčnost a přenositelnost  na systémy odlišné od Windows - jak se zdá, některá API, která Aperture používá  Win32 knihovny.
 +
 +
== Formáty prezentačních dokumentů a možnosti jejich zpracování ==
 +
 +
=== [http://www.microsoft.com/cze/office/powerpoint PowerPoint] ===
 +
 +
==== [http://jakarta.apache.org/poi/ POI] ====
 +
Nejvhodnější API pro extrakci textu z prezentací vytvořených pomocí
 +
aplikace PowerPoint je pravděpodobně POI (Poor Obfuscation Implementation).
 +
Na rozdíl od ostatních API jako např. PowerML je POI šířeno pod Apache licencí
 +
a podporuje i OLE( Object Linking Embedded ), které PowerPoint využívat.
 +
Bohužel jsem nikde nenalezl seznam podporovaných verzí PowerPointu, nicméně se dá předpokládat,
 +
že by měly být podporovány všechny verze využívající Microsoft Compound Document Format.
 +
 +
==== [http://www.powerml.com PowerML] ====
 +
PowerML je je další API sloužící pro zpracování prezentace ve formátu PowerPoint. Mezi
 +
jeho výhody patří jednoduché ovládání a možnost exportovat prezentaci přímo do XML (
 +
přesnějí PowerML - což je XML podle [http://www.powerml.com/schema/powerml.xsd tohoto] XMLSchema.
 +
Hlavní nevýhodou tohoto API je nemožnost nahlédnout do zdrojového kódu a pomalý postup
 +
při pouhé extrakci textu. PowerML totiž převádí pomocí BASE6 podporované mediální soubory přímo
 +
do XML souboru.
 +
 +
==== Ostatní ====
 +
Skupinu ostatních API, která by byla schopná pracovat s formátem PowerPointu tvoří
 +
placený software:
 +
* [http://www.davisor.com/offisor/index.html Davisor Offisor ]
 +
* [http://tonicsystems.com Tonic Systems]
 +
* [http://www.aspose.com/Products/Aspose.PowerPoint/ Aspose.PowerPoint]
 
----
 
----
 +
 +
=== Corel Presentations ===
 +
Podle [http://aperture.sourceforge.net/tutorial/extractors.html dokumentace Aperture] jsou soubory formátu Corel Presentations zpracovatelné knihovnou POI, alespoň k extrahování textu (bez metadat).
 +
 +
=== [http://www.example.com OpenOffice Impress] ===
 +
Ačkoliv lze použít vestavěné API, výsledek by pravděpodobně nebyl přenositelý na systémy,
 +
které nemají OpenOffice nainstalován.
 +
 +
=== [http://www.koffice.org/ KPresenter] ===
 +
Prozatím nezkoumáno.
 +
 +
----
 +
 
* [[BC:xmudrak2:Info | Užitěčné informace, odkazy]]
 
* [[BC:xmudrak2:Info | Užitěčné informace, odkazy]]
 
* [[BC:xmudrak2:Výsledky | Informace o řešení]]
 
* [[BC:xmudrak2:Výsledky | Informace o řešení]]
----
 

Verze z 25. 10. 2006, 09:28

Extrakce dat z prezentačních dokumentů - zadání

Existující projekty odpovídající předběžnému zadání

Aperture

Aperture je Java knihovna pro extrakci a následné prohledávání textu z různých formátů, jejíž alpha verze byla vypuštěna letos ( r.2006 ) v březnu. Jejími autory jsou DFKI a Aduna . Tato knihovna ve svých cílech překračuje předběžné zadání této práce, ať už v počtu podporovaných formátů, ve způsobu získávání zdrojových dokumentů, nebo ve způsobu uchovávání informací. Sporná je ovšem její současná funkčnost a přenositelnost na systémy odlišné od Windows - jak se zdá, některá API, která Aperture používá Win32 knihovny.

Formáty prezentačních dokumentů a možnosti jejich zpracování

PowerPoint

POI

Nejvhodnější API pro extrakci textu z prezentací vytvořených pomocí aplikace PowerPoint je pravděpodobně POI (Poor Obfuscation Implementation). Na rozdíl od ostatních API jako např. PowerML je POI šířeno pod Apache licencí a podporuje i OLE( Object Linking Embedded ), které PowerPoint využívat. Bohužel jsem nikde nenalezl seznam podporovaných verzí PowerPointu, nicméně se dá předpokládat, že by měly být podporovány všechny verze využívající Microsoft Compound Document Format.

PowerML

PowerML je je další API sloužící pro zpracování prezentace ve formátu PowerPoint. Mezi jeho výhody patří jednoduché ovládání a možnost exportovat prezentaci přímo do XML ( přesnějí PowerML - což je XML podle tohoto XMLSchema. Hlavní nevýhodou tohoto API je nemožnost nahlédnout do zdrojového kódu a pomalý postup při pouhé extrakci textu. PowerML totiž převádí pomocí BASE6 podporované mediální soubory přímo do XML souboru.

Ostatní

Skupinu ostatních API, která by byla schopná pracovat s formátem PowerPointu tvoří placený software:


Corel Presentations

Podle dokumentace Aperture jsou soubory formátu Corel Presentations zpracovatelné knihovnou POI, alespoň k extrahování textu (bez metadat).

OpenOffice Impress

Ačkoliv lze použít vestavěné API, výsledek by pravděpodobně nebyl přenositelý na systémy, které nemají OpenOffice nainstalován.

KPresenter

Prozatím nezkoumáno.