Virtual Dhamma-Vinaya Vihara

Studies, projects & library - [Studium, Projekte & Bibliothek] (brahma & nimmanarati deva) => Translation projects - [Übersetzungsprojekte] => Studygroups & Dhamma Dana - [Studiengruppen & Dhamma Dana] => Zugang zur Einsicht - [Access to Insight] => Topic started by: Johann on June 18, 2018, 01:26:44 PM

Title: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 18, 2018, 01:26:44 PM
There are 10.000s of gifts received for the Sangha of the four directions like for:

* CSCD - Tipitaka
* Zugangzureinsicht (ATI) pages
* Pali dictionaries

and "countless" other small and large Dhamma gifts.

If one likes to carry "some bags of Dhamma up the hill", what ever inspired (no special skills required, if able to use a truck great, but not necessary), just let it be known to get access and some hints how of best storing.

html, xlm and others into page content of http://accesstoinsight.eu/

May person placed also a technical question about the possibilities in the docu wiki forum (https://forum.dokuwiki.org/post/61380).
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 18, 2018, 03:58:45 PM
Nyom Christoph (https://forum.dokuwiki.org/post/61384) transfered the "easy" way existing. Just making tree with txt-files and upload them via ftp.

After this proper formating, including tables can be made via regex replacement.

(Still no easy solution, since multi check boxes is not avaliable now)

That means my person will prepare (rename, sort... beginning with "de") and upload ZzE content and after CSCD the next days.

If one likes to work on other branches parallel, that should be possible and fine.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 20, 2018, 12:27:31 PM
Die ZzE-Seiten im Namensbereich "de" werden nun hochgeladen (ca. 3500 htmls + 270 Ordner) und mag etwas Zeit dauern, ob der Verbindung.

Umbenennen und aussortieren von Dateien, semi-händisch dauert/beansprucht etwa 2 Tage für soch Umfang.

Mit dem Herrichten für den Namensbereich "en" wird dann heute begonnen.

Starseiten wurden in der Konfiguration von "start" auf "index" umgestellt, und so mögen diverse Links der händischen Beginnzeit nicht existieren, sind auf "index" unzustellen.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 20, 2018, 05:45:39 PM
It took some hours. Germa ZzE htmls are uploaded and as raw data open to slowly convert according standards not laid down yet.

There has been made on structural change: the directory "sut" was put in between "tipitaka" and the five Nikayas.

In regard of "select all" for the regex-replacements (https://forum.dokuwiki.org/post/61387) Atma raised a request and found a possible code, but not sure if useable.

Not knowing this spheres of collecting snippets, this ways, what does Nyom Moritz think. Is such regarded as abounded?
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 22, 2018, 06:13:18 AM
Meine Person ladet nun die engl. ZzE Seiten, als rohe Htmls hoch. Die Vorbereitung des CSCD-Tipitaka beginnt er mit der romanischen Schrift (ca. 3000 Seiten pro Schrift).
My person has now started to upload the english ZzE-pages, as raw data in html. The preparing of the CSCD-Tipitaka he starts with the roman script (~ 3000 pages/script)
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 23, 2018, 03:41:13 AM
It took some hours. Germa ZzE htmls are uploaded and as raw data open to slowly convert according standards not laid down yet.

There has been made on structural change: the directory "sut" was put in between "tipitaka" and the five Nikayas.

In regard of "select all" for the regex-replacements (https://forum.dokuwiki.org/post/61387) Atma raised a request and found a possible code, but not sure if useable.

Not knowing this spheres of collecting snippets, this ways, what does Nyom Moritz think. Is such regarded as abounded?

Vandami, Bhante,

sorry I did not receive the mention (maybe it does not work when editing) and was busy all the time. I could not find time to look deeper into anything here.
But now I have checked and see what you mean with the BatchEdit problem.

I think it should be easy to "hack" a solution together. I will try.

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 23, 2018, 06:28:46 AM
No problem and "please" just take your proper time (to spent), Nyom Moritz .
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 23, 2018, 07:21:55 AM
No problem. :)

Should work now, but could be improved.

The only disadvantage and reason that it could be "dangerous" is that the batch-edit plugin does not save the previous version, so one cannot undo the change in the history.

I think it would be no big problem to include the function of saving old versions for batch-edits as well. But I don't know yet how exactly that works.
(Too much time spent only fiddling so that it looks nice.  ^-^)

That would be useful to add later. (probably a good while later, because I'm getting buried in neverending loads of work.)

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 23, 2018, 07:26:59 AM
Sadhu Nyom @Moitz .

Not only this, "check all" for single "namespaces" and "scroll down" links are added.

Not sure about the usuals and demands/expectation in open soucre teams. How ever, it should be fine if Nyom wishes to give the programmer something back in ways of encouragements.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 23, 2018, 10:02:34 AM
Sadhu Nyom @Moitz .

Not only this, "check all" for single "namespaces" and "scroll down" links are added.

Not sure about the usuals and demands/expectation in open soucre teams. How ever, it should be fine if Nyom wishes to give the programmer something back in ways of encouragements.

Yes, one could spend eons with that. https://github.com/dwp-forge/batchedit/pull/12#issuecomment-399625291
But it's good to do that sometimes.

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 23, 2018, 10:32:24 AM
Quote from: Moritz
Yes, one could spend eons with that.

Not "could", actually bound to ("must"), if not getting aware of generosity, debts and the way out. There are less who see what the "ease" for now conditions.

And since taking (not really given, or not fulfill certain deal), even for the highest, would have it's effects. Therefore my person explains it again and again, to gain best fruits without ganger of bachwards.

Mudita
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 23, 2018, 01:53:34 PM
It seems like as if pages (uploaded txt files) need to come into the system of the DB first. Searching a word present on all pages gave a found of just 222 pages. After viewing a certain page via homepae, doing the sesrch again it inceased by 1-3 pages, incl. the newly visited.

The program seems to use the DB for search informations and pages are not automatical included, there where the search program searches.

Atma raised a question (https://forum.dokuwiki.org/post/61472), and Mr Christoph generously helped further: indexing plugin (https://www.dokuwiki.org/plugin:searchindex), by Mr. Gohr.

...

Seems like Atmas connection is not suitable to execute this, since having stoped by page 390/6800...  :)

Atma versucht es nochmal, vielleicht wichtig, daß Bildschirmschoner nicht aktiv wird.

1170... mal sehen, auf ein neues.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 11:26:28 AM
Morgens um 6 abermals gestartet, ist der Zähler nun bis 5800 gekommen... malsehen ob es gelingt. Nun sehr langsam.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 11:39:54 AM
Morgens um 6 abermals gestartet, ist der Zähler nun bis 5800 gekommen... malsehen ob es gelingt. Nun sehr langsam.

Sehe ich erst jetzt, Bhante, ich kann es hier versuchen, wenn Sie einen Weg haben, den Prozess zu stoppen. (Weiß nicht, ob es was ausmacht, wenn sich da zwei in die Quere kommen).

Aber ich sehe gerade, wenn ich auf die Wikidoku-Seite gehe:

Quote
Warning: session_write_close(): write failed: Disk quota exceeded (122) in /var/www/clients/client2157/web5417/web/doku.php on line 117

Das wird daran liegen, dass für accesstoinsight.eu nie so viel Speicherplatz reserviert war, da es ja nur als einfache Weiterleitungsseite eingerichtet war.

Werde mal sehen, noch etwas von sangham.net oder zugangzureinsicht.org abzuzwacken. (Man kommt ja wohl nicht rum um diese unsinnige Einstellung im Greensta-Serverpanel, wo man den Speicherplatz an die einzelnen Seiten verteilen muss, auch wenn sie alle wohl auf demselben Server und Speichermedium liegen.)
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 11:58:46 AM
Habe die Speicherplatzzuweisung verändert:
Domainaltes Limitneues Limitderzeit verwendet
zugangzureinsicht.org1536 MB836 MB673,5 MB
sangham.net7140 MB6500 MB4,42 GB
accesstoinsight.eu1044 MB2384 MB1,04 GB

Die Fehlermeldung auf accesstoinsight.eu taucht jetzt nicht mehr auf. Vermutlich wird accesstoinsight.eu noch einiges an Platz brauchen.

Ich werde mich mal mit Sophorn und Greensta wegen Speicherplatzaufstockung in Verbindung setzen.

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 12:06:59 PM
index gerade fertig geworden. Mal sehen ob die replace-software nun alles findet.

Sadhu!

(Sobald das mit wikidoku funtioniert, ist sicher massig auf sangham.net löschbar, die Tipitakas machen vielleich noch 1,5GB aus. Vielleicht besser in optimieren und einarbeiten investieren, nutzen was da ist, als den üblicheren Weg zu gehen. Aber nur ein Gedanke. Was immer Freude macht.)
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 12:23:00 PM
Suche nach "DOCTYPE" ergibt nun etwas über 1000 von 6800... hmm...

Versuche nun gerade die "Index aktualisieren" Variante, auf bestehenden aufbauend, nun ja 6800 kennend.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 12:41:35 PM
Bhante, ich würde das Index aktualisieren (oder neu erzeugen) ja von diesem Computer aus hier übernehmen, falls es etwas erleichtert.

Könnte sein, dass es am besten ist, nachdem da schon etwas wegen Speicherplatzmangel fehlgeschlagen ist, noch einmal ganz den Index neu zu erzeugen.

Soweit ich verstehe, wird einiges von der Indexierungsarbeit mit dem Plugin direkt von einem Skript im Browser übernommen. Kann sein, dass das so ein Smartphone (oder Tablet) da nicht leistungsfähig genug ist und deshalb alles so langsam.

Vielleicht würde es schneller gehen, wenn ich es von hier aus mache. (Bin mir aber nicht sicher.)

_/\_

Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 12:55:01 PM
Bin erst einmal mit der Aufmerksamkeit woanders.
Sollte nach dem aktuell laufenden "Index aktualisieren" immer noch nicht alles gefunden werden, mag Bhante gern einmal kurz @-klingeln oder e-mailen. Dann macht es *plop* im Posteingang und ich würde von hier aus noch einmal vollständigen Index-Neubau starten.

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 02:01:27 PM
Sadhu, Nyom Moritz

"After reindexing:

Seems to have still empty areas. After getting indexing made, about 1000 of about 7000 pages where matched. After reindexing about 2000.

The source of the replace plugin seems to be a different."

Atma gibt hier mal "auf" und frei, was immer Nyom unternehmen möchte.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 03:50:57 PM
Okay, started to build the index new again, so that will take a couple of hours.

(But now it seems it has stopped at 95/6787 pages. Beginning was quick (counter incremented every few seconds), but now no change for at least 20 minutes. Hmm...)

Quote
The source of the replace plugin seems to be a different.
Yes, the search function also has a different syntax for search patterns. While the BatchEdit plugin accepts more powerful regular expressions, the normal search function only allows for a small set of wildcard patterns, more similar to Google and other web search engines: https://www.dokuwiki.org/search

Maybe it would be good to be able to use the same search syntax for both, or maybe both kinds for both: allowing an option to switch which syntax to use in both BatchEdit and normal search.

Just an idea for later. Don't know how to do it now.

Hmm... still 95/6787 while building new index. Maybe some error happened and it stopped.


Wie war es beim vorherigen Indizieren?

Quote
index gerade fertig geworden. Mal sehen ob die replace-software nun alles findet.
War das auch ein "Rebuild Index", der da erfolgreich bis zum Ende durchgelaufen ist (auch wenn hinterher immer schrittweise noch mehr durch "Update Index" hinzugekommen ist)? Oder ein "Update Index"?

Ist ein "Rebuild Index" jemals erfolgreich bis zum Ende durchgelaufen?

/me Vielleicht war das ja doch keine so gute Idee von mir, noch mal ganz neu zu bauen.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 03:57:32 PM
Beides bis zum Ende, wobei dieses nur durch den Zähler und Neuaufbau der Seite anzunehmen war/ist.

Neuer Index dauerte beim 4 Anlauf ca 6h wobei die ersten Tausend etwa 2-3 dateien pro Secunde war. (keine "Hurra geschaft meldung" oder ähnliches) Seltsam war nur, daß beim nochmaligen Aufbau manchmal "übersprungen..." als info ganz untern angezeigt wurde.

Re-index dauerte etwa eine Stunde. Schnell und langsam wohl von Internetverbindung abhängig.

Wenn etwas stockte, schien es nur an der Verbindung zu liegen.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 04:27:58 PM
Nachdem ich jetzt das Skript inspiziert hab, und der Fortschritt immer noch bei 95/6787 Seiten ist, fang ich noch mal von vorn an und gucke weiter, ob ich rausfinde, warum er stehen bleibt und ob man das beheben kann.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 04:41:32 PM
Hr. Christooh hatte noch diesen Link gegeben: Search Index Issues (https://www.dokuwiki.org/faq:searchindex), für Atma mehrheitlich "Spanisch", aber vielleicht etwas für Nyom Moritz zum ergreifen.

Atma ist nicht klar in wie weit replace-plugin den index braucht, der ja nie so aktuell ist wie der file-inhalt (dachte es geht um link/file ansich)
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 05:19:12 PM
Hr. Christooh hatte noch diesen Link gegeben: Search Index Issues (https://www.dokuwiki.org/faq:searchindex), für Atma mehrheitlich "Spanisch", aber vielleicht etwas für Nyom Moritz zum ergreifen.
Sadhu! Das ist wohl hilfreich, um die Funktionsweise zu verstehen...

Atma ist nicht klar in wie weit replace-plugin den index braucht, der ja nie so aktuell ist wie der file-inhalt (dachte es geht um link/file ansich)
Soweit ich verstehe: Das Replace-Plugin braucht den Index, um erst einmal die Seiten zu finden, auf denen das Suchmuster vorkommt.

Eine Option, um gar nicht auf den Index zurückzugreifen und einfach alles "blind" zu ersetzen, wäre wohl sicher auch gut zu haben, wenn man ganz genau weißt, dass man da nichts falsches ersetzt.

Ich weiß gar nicht, wie so ein Suchindex funktioniert. Nur, dass es wohl kaum möglich für den Server wäre, all die gefundenen Muster für 2000 Seiten in Sekundenbruchteilen aufzulisten, wenn er dafür tatsächlich jede einzelne Datei öffnen und durchsuchen müsste.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 05:34:40 PM
Soweit ich verstehe: Das Replace-Plugin braucht den Index, um erst einmal die Seiten zu finden, auf denen das Suchmuster vorkommt.

Das war auch Atmas Denke (:replace sucht irgendwo in einer Datenbank welche seiten durchsuchtwerden können) und dann "einfach" wie es etwa notepad++ macht, über die datenbanksoftware am Server. (outsourcing, im Prinzip, um Atmas techische Hilfsmittel und DB-Geschicke auszugleichen. Grunddaten, txt's, herrichten ist lokal angenehmer, wenn...)

Aber lieber Ziegel für Ziegel, als soviel in Verstrickungen zu leiten.

Ist wohl alles der Grund, warum große wikis "robots"-techniken benutzen.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 24, 2018, 06:25:31 PM
Indizierung ist jetzt bei 3000/6787 und noch nicht gestorben. Bei derzeitiger Geschwindigkeit (ca 1,5 Sekunden pro Seite) dauert's wohl noch so ca. zwei Stunden.
Ich denke, das Neubauen war gar nicht nötig. Wenn er noch mal hängenbleibt, mach ich wieder "Update" statt "Rebuild", da sollte er wohl nahtlos fortsetzen.

Hängenbleiben tut er, wenn der Server keine Antwort schickt. (Passiert manchmal, die Seiten sind ja auch manchmal nicht erreichbar.) Dann wartet er einfach ewig, anstatt nach einem gewissen Zeitlimit einfach noch mal nachzufragen. Also das lässt sich leicht beheben, hab ich noch nicht eingebaut. Damit man wenigstens das Problem beim nächsten Mal nicht mehr hat.

Wegen der Funktion "alles ersetzen, ohne nachzuschauen", ohne Index: ich denke, das dürfte auch nicht so schwer sein, einzubauen.
Muss jetzt aber erst mal weg vom Computer, Holz hacken. Und dann zurück ans Geldverdienen. Also heut gibt's wohl noch keine Lösung dafür.

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 24, 2018, 10:43:57 PM
It seems that the new indexing has it's effects. Now there are already 3708 pages matched.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 25, 2018, 03:17:49 AM
Good. But it stopped again at around 4000/6827 while I was away.

Now I added some code to retry each request after 15 seconds when there are connection problems. So this should now not happen again.

/me wondering why it was implemented in this way, to handle half of the logic in the browser in JavaScript, sending messages back and forth to the server for each file to index, instead of doing all the steps on the server, and only sending back info on request. It could be much faster.

Started updating index again. Going fast now, skipping all the already indexed files. I think it should take about 2 hours now.
When it's done, an email should be sent automatically to samana.johann at sangham.net. Hope it works.

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 25, 2018, 01:23:15 PM
Just to inform Nyom Moritz : no email received, no chance in matches, still 3708 for "<body>" with replace plugin.

If Nyom thinks Atma should/could do something/anything, may he let it be known.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 25, 2018, 05:20:50 PM
Okay, seems I have made some mistake with the automatic e-mail thing. But the re-indexing was completed.
Not sure what to do.

I just started a new complete re-index, just for "fun". Already at ~2500/6828. Reduced the wait time between each request from 250ms to 100ms, so it should go a bit faster now. (There is one request to the server for indexing each page, and a wait time between each request. I think this is only to not get rejected by a server with some kind of "request Spam" or "DOS" attack protection. But this server does not have such protection, I think, so we I think not waiting at all between indexing each file would be even better. But now it's already running...)

Quote
3708 results for "<body>"

Does Bhante know how many results it "should" be and where they should come from?
I have no overview about what was uploaded at the moment, nor about the number of pages on ZzE. (I am trying to download another complete backup of ZzE now, because the one I had was not complete.)
Also, it is possible that there could be '<body with="some" extra="attributes">', so that would not match.

But now I destroyed the index again, so we have to wait until it's finished again.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 25, 2018, 05:34:19 PM
Quote
3708 results for "<body>"

Does Bhante know how many results it "should" be and where they should come from?
I have no overview about what was uploaded at the moment, nor about the number of pages on ZzE. (I am trying to download another complete backup of ZzE now, because the one I had was not complete.)
Also, it is possible that there could be '<body with="some" extra="attributes">', so that would not match.

Okay, searching for "<body>" in all original ZzE files gives 6617 results.

(ATI re-indexing, currently: "Indexed: 3184/6828")
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 25, 2018, 05:39:03 PM
Okay, searching for "<body>" in all original ZzE files gives 6617 results.

And searching in all files currently uploaded on accesstoinsight.eu gives 6733 results. Not sure where the extra comes from.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 25, 2018, 05:44:34 PM
Sadhu

A certain missing amount might match to certain redirect pages or others having no body.

Seems like proper to use in this case.

Okay, searching for "<body>" in all original ZzE files gives 6617 results.

And searching in all files currently uploaded on accesstoinsight.eu gives 6733 results. Not sure where the extra comes from.

My person used to add, edit and delete within his stored "work original" and it's of cause possible that pages got lost on zze and vici versa, as Atmas upload is not that secure and deletes files if not finished.
There are also pages included which have not really published as well before.
And on zze there are many files in vin/mv/ for example, not having a german file, but ati.eu includes them (good amout of pages).

The uploaded files and structur now on ati.eu should match the most complete and cleaned version.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 25, 2018, 06:47:51 PM
There are also pages included which have not really published as well before.
And on zze there are many files in vin/mv/ for example, not having a german file, but ati.eu includes them (good amout of pages).

The uploaded files and structur now on ati.eu should match the most complete and cleaned version.

Okay. That probably explains it.

I have to go now. Still don't know what's wrong here with not finding all results for "<body>" or other stuff. Might take a longer time to find out the reasons and make something work.

Current state: "Indexed: 6222/6828" (it always gets slower towards the end, when the index is already big)

_/\_
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Moritz on June 25, 2018, 09:00:47 PM
I just started a new complete re-index, just for "fun". Already at ~2500/6828. ...

Okay, vollständige Re-Indizierung nun abgeschlossen, und nun endlich bei Suche nach "<body>": Total matches: 6511 matches on 6511 pages.

Hoffe, dass man sich darauf etwas verlassen kann. Alles noch nicht sicher mit dem Index, woher der seine Suchergebnisse anzeigt, ob er da schon die aktuelle Version in der Vorschau hat oder manchmal etwas veraltetes, sodass man vielleicht was falsches ersetzt.

Dass das BatchEdit-Plugin nicht selber den Index für die veränderten Dateien aktualisiert, könnte ein großes praktisches Problem sein. Nach jedem BatchEdit-Vorgang den Index komplett neu zu bauen und dafür Stunden zu warten, wäre wohl zu viel Geduldstraining.

Aber ich hab noch keine Zeit, dafür jetzt die genaue Funktionsweise zu verstehen.
Title: Re: [Dokuwiki] Importing Datas (Sanghagifts)
Post by: Johann on June 25, 2018, 09:04:50 PM
Sadhu