Knowledge Base450Thema: Filewalker / Lucene Suchmaschine: Alles was Sie schon immer wissen wollten und sich nie getraut haben zu fragen
1) Dokumente wie z.B. Excel, Word, Acrobat sollen in der jeweiligen Applikation und nicht im Browser geöffnet werden

2) UNC Pfad kann nicht bei den Verbindungseinstellungen eingestellt werden. Es kommt die Meldung "Das angebene Verzeichnis ist durch den Server nicht erreichbar."

2) Direktzugriff Konfiguration

3) Wie können NTFS Rechte an Ordner und Dateien berücksichtigt werden

4) Probleme bei der Suche in den Dateien

5) Suche nach bestimmten Begriff bei Aufruf der Seite ausführen

6) Direktzugriff mit Linux Server

7) Office-2007-Dokumente (docx, xlsx, pptx) werden nicht gefunden.

8) Vorgabewert für die Filewalkersuche

9) Word Vorlagen (.dot) werden nicht gefunden

10) Wie kann das Icon für eine weitere, eigene Dateierweiterung hinterlegt werden?
1)
a) Windows Explorer -> Extras -> Ordneroptionen -> Dateitypen -> Dateityp wählen -> erweitert -> Im selben Fenster durchsuchen NICHT selektieren
b) Im Expert Modus Disposition-Type= attachment und open-popup=false (muss nochmal verifiziert werden. Ich habe den Eindruck dem IE7 ist das egal!)

2) Damit die Dateien und Ordner in der FileWalker Kontrolle gelistet werden, muss der Ordner freigegeben sein und der Account, unter dem der Portalservice läuft, muss unter den Berechtigungen der Freigabe für das Verzeichnis mit Leserechten eingetragen sein. Der Verzeichnispfad für die FileWalker-Verbindung muss als UNC Pfad angegeben werden. Wenn der Portaldienst unter dem Benutzer "Lokales Systemkonto" läuft, dann benötigt der Lokale Adminuser Freigabeberechtigungen und effektive Berechtigungen am Filewalkerverzeichnis

Jeder Client muss direkt Zugriff auf den Rechner haben, auf dem das FileWalker Verzeichnis liegt. Der Zugriff geht in diesem Fall nicht über den Server, sondern via Browser direkt auf die Datei. D.h., es gelten die Rechte die der Benutzer an der Datei und am Filewalkerverzeichnis hat. Die Zugriffsrechte, die ein Benutzer an einer Datei auf einer Freigabe hat werden bestimmt
- die Dateisystemrechte und
- die Freigaberechte
Das gilt sowohl für Windows-Freigaben als auch für SAMBA-Shares.

Die Browser Safari/Webkit/Chrome lassen einen Direktzugriff aus Sicherheitsgründen nicht zu:
(http://code.google.com/p/chromium/issues/detail?id=17787)

3) Voraussetzung: integrierte Authentifizierung!
In der FileWalker Kontrolle muss unter „Funktion des Dateilinks“ die Option „Direktzugriff“ aktiviert werden und unter den Rechten darf nur der Direktzugriff ausgewählt sein, nur dann werden NTFS Rechte berücksichtigt.
Sicherheitstechnisch wird der Zugriff auf Dateien, auf die der Benutzer keine Rechte hat, allerdings nicht 100% verhindert.

Das Auflisten der Dateien und Ordner ist UNABHÄNGIG von den NTFS Rechten. Auch ein User ohne NTFS Rechte an den Ordner und Dateien sieht die Liste, kann aber nichts öffnen! Das Öffnen der Dateien und Order ist dann nur den Usern vorbehalten, die die Rechte an den Dateien und Ordner besitzen.

4)
4.1) Fehlermeldung beim Indizieren:
...
java.lang.NoClassDefFoundError: org/bouncycastle/jce/provider/BouncyCastleProvider
...
Lösung:
*.pdf Files, die nur mit der Berechtigung: "Anzeigen und Drucken erlaubt" erstellt wurden, sind im Filewalker nicht durchsuchbar, weil die Lucene Suchmaschine sie nicht indizieren kann. Für das PDF muss die Erlaubnis für Inhalt kopieren und ausschneiden auf zulässig gesetzt werden. Im Anhang eine Grafik der Eigenschaften eines PDF, welches dies verdeutlicht.

4.2) Fehlermeldung beim Indizieren:
...
...Lock obtain timed out...
...
Lösung:
Im in der Fehlermeldung angegebenen Verzeichnis befindet sich eine LOCK Datei.
Diese Datei "write.lock" muss gelöscht werden, ansonsten bleibt dieses Verzeichnis für Lucene gesperrt. Ursache ist idR. ein zuvor nicht komplettierter Indexaufbau, der z.B. durch einen Neustart des Portaldienst verursacht worden sein kann. Beim Indizieren schreibt Lucene
diese Datei in dieses Verzeichnis, damit das Verzeichnis nicht gleichzeitig
von einem anderen Portalmanager Client aus indiziert werden kann.

4.3) Fehlermeldung beim Indizieren:
...
java.io.IOException: background merge hit exception: _2d:c1650765 _2e:c2 into _2f [optimize]
Caused by: java.io.IOException: There is not enough space on the disk
...
Lösung: Es steht offenbar nicht genug Festplattenplatz zur Verfügung (Festplatte der Xtreme Installation). Beim Indizieren werden temporär Dateien von der Suchmaschine angelegt. Je nach Größe des zu indizierenden Filewalkerverzeichnis können diese Tempdateien ggf. recht groß werden. Daher sollte hier auf der Festplatte Platz geschaffen werden.

4.4) Fehlermeldung beim Indizieren:
...
java.lang.NullPointerException
at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:194)
at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:182)
at org.pdfbox.pdmodel.PDDocumentCatalog.getAllPages(PDDocumentCatalog.java:226)
at org.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:216)
...
Lösung: Dies liegt an einem Bug an einer Javaklasse von Apache. Wird voraussichtlich in naher Zukunft mit einem Online Update behoben. United Planet hat hier aber leider keinen direkten Einfluss.
Lesen Sie hierzu bitte auch FAQ Beitrag No.883

4.5) Befinden sich im zu durchsuchenden Filewalkerverzeichnis .dot Dateien, welche als Word Templates von Kunden verwendet werden, so tauchen diese nicht in den Suchergebnissen auf.
Lösung:
- Ins Verzeichnis "xtreme/org/internal/cfg" wechseln:
- Dort die Datei "docplug.cfg" mit einem Editor öffnen (!Kein Wordpad!)
- Duplizieren Sie die Zeile:
<plug mimetype="application/msword" filetype="doc" lass="de.uplanet.lucy.server.docplug.poi.WordDocPlug" />
- Ändern Sie nun eine der beiden nun identischen Zeilen in filetype="dot" ab.
- Datei Speichern und Xtreme Dienste neu starten.

4.6) "Falsche Syntax"-Meldung, beim Versuch Wildcards vor einem Suchbegriff anzugeben, also z.B. *suchbe*
Lösung: In der lucene.cfg des Portals folgenden Eintrag zwischen <indexes> und </indexes> eintragen:
<options allowleadingwildcard="true"/>

5) Folgendes Script im Onload der Seite ausführen, auf welcher die Filewalkerkontrolle liegt:

function presetFW() {
var filewalkername = "name_der_filewalkerkontrolle";
var oSearch = document.getElementById("ID_FWSearchExp_" + filewalkername);
oSearch.value = "vorgabewert";
return true;
}

6) siehe Screenshot

7) Die Klassen, die zum Indexieren benutzt werden, sind in der Datei docplug.cfg (<xtreme>/org/<portalname>/internal/cfg/) eingetragen. Die wird beim Update nicht aktualisiert, da man hier kundenseitig vieles anpassen kann. In diese Datei müssen in dem Abschnitt, in dem die alten Office-Formate definiert sind, folgende Zeilen ergänzt werden:

<plug mimetype="application/msword" filetype="docx" class="de.uplanet.lucy.server.docplug.msooxml.MsOoXmlDocPlug"/>
<plug mimetype="application/vnd.ms-excel" filetype="xlsx" class="de.uplanet.lucy.server.docplug.msooxml.MsOoXmlDocPlug"/>
<plug mimetype="application/vnd.ms-powerpoint" filetype="pptx" class="de.uplanet.lucy.server.docplug.msooxml.MsOoXmlDocPlug"/>

siehe anhängendes Beispiel.

8) siehe im Forum:
http://www.intrexx.com/forum/index.php?page=Thread&postID=21465&highlight=filewalker#post21465

9) docplug.cfg:
<plug mimetype="application/dot" filetype="dot" class="de.uplanet.lucy.server.docplug.poi.WordDocPlug"/>

10) Das Icon muss kopiert werden nach:
\intrexx\org\portal\external\htmlroot\images\assets\filewalker\ext\
Dann muss der Name der Dateierweiterung in die "listOfFileTypes" in der container.xsl aufgenommen werden. Die container.xsl liegt unter:
\intrexx\org\portalname\internal\application\xsl\html\common
Dann muss noch die Filewalker Applikation veröffentlicht werden.
Anhang:

Intrexx Version:

    Details:

    Kategorie:Datenintegration
    Betriebssystem:unspezifisch
    Datenbank:unspezifisch
    Stand von:30-01-2014