Post reply

Name:
Email:
Subject:
Tags:

Seperate each tag by a comma
Message icon:

Attach:
(Clear Attachment)
(more attachments)
Allowed file types: apk, doc, docx, gif, jpg, mpg, pdf, png, txt, zip, xls, 3gpp, mp2, mp3, wav, odt, ods, html, mp4, amr, apk, m4a, jpeg
Restrictions: 50 per post, maximum total size 150000KB, maximum individual size 150000KB
Note that any files attached will not be displayed until approved by a moderator.
Anti-spam: complete the task

shortcuts: hit alt+s to submit/post or alt+p to preview


Topic Summary

Posted by: Johann
« on: June 25, 2018, 09:04:50 PM »

Sadhu
Posted by: Moritz
« on: June 25, 2018, 09:00:47 PM »

I just started a new complete re-index, just for "fun". Already at ~2500/6828. ...

Okay, vollständige Re-Indizierung nun abgeschlossen, und nun endlich bei Suche nach "<body>": Total matches: 6511 matches on 6511 pages.

Hoffe, dass man sich darauf etwas verlassen kann. Alles noch nicht sicher mit dem Index, woher der seine Suchergebnisse anzeigt, ob er da schon die aktuelle Version in der Vorschau hat oder manchmal etwas veraltetes, sodass man vielleicht was falsches ersetzt.

Dass das BatchEdit-Plugin nicht selber den Index für die veränderten Dateien aktualisiert, könnte ein großes praktisches Problem sein. Nach jedem BatchEdit-Vorgang den Index komplett neu zu bauen und dafür Stunden zu warten, wäre wohl zu viel Geduldstraining.

Aber ich hab noch keine Zeit, dafür jetzt die genaue Funktionsweise zu verstehen.
Posted by: Moritz
« on: June 25, 2018, 06:47:51 PM »

There are also pages included which have not really published as well before.
And on zze there are many files in vin/mv/ for example, not having a german file, but ati.eu includes them (good amout of pages).

The uploaded files and structur now on ati.eu should match the most complete and cleaned version.

Okay. That probably explains it.

I have to go now. Still don't know what's wrong here with not finding all results for "<body>" or other stuff. Might take a longer time to find out the reasons and make something work.

Current state: "Indexed: 6222/6828" (it always gets slower towards the end, when the index is already big)

_/\_
Posted by: Johann
« on: June 25, 2018, 05:44:34 PM »

Sadhu

A certain missing amount might match to certain redirect pages or others having no body.

Seems like proper to use in this case.

Okay, searching for "<body>" in all original ZzE files gives 6617 results.

And searching in all files currently uploaded on accesstoinsight.eu gives 6733 results. Not sure where the extra comes from.

My person used to add, edit and delete within his stored "work original" and it's of cause possible that pages got lost on zze and vici versa, as Atmas upload is not that secure and deletes files if not finished.
There are also pages included which have not really published as well before.
And on zze there are many files in vin/mv/ for example, not having a german file, but ati.eu includes them (good amout of pages).

The uploaded files and structur now on ati.eu should match the most complete and cleaned version.
Posted by: Moritz
« on: June 25, 2018, 05:39:03 PM »

Okay, searching for "<body>" in all original ZzE files gives 6617 results.

And searching in all files currently uploaded on accesstoinsight.eu gives 6733 results. Not sure where the extra comes from.
Posted by: Moritz
« on: June 25, 2018, 05:34:19 PM »

Quote
3708 results for "<body>"

Does Bhante know how many results it "should" be and where they should come from?
I have no overview about what was uploaded at the moment, nor about the number of pages on ZzE. (I am trying to download another complete backup of ZzE now, because the one I had was not complete.)
Also, it is possible that there could be '<body with="some" extra="attributes">', so that would not match.

Okay, searching for "<body>" in all original ZzE files gives 6617 results.

(ATI re-indexing, currently: "Indexed: 3184/6828")
Posted by: Moritz
« on: June 25, 2018, 05:20:50 PM »

Okay, seems I have made some mistake with the automatic e-mail thing. But the re-indexing was completed.
Not sure what to do.

I just started a new complete re-index, just for "fun". Already at ~2500/6828. Reduced the wait time between each request from 250ms to 100ms, so it should go a bit faster now. (There is one request to the server for indexing each page, and a wait time between each request. I think this is only to not get rejected by a server with some kind of "request Spam" or "DOS" attack protection. But this server does not have such protection, I think, so we I think not waiting at all between indexing each file would be even better. But now it's already running...)

Quote
3708 results for "<body>"

Does Bhante know how many results it "should" be and where they should come from?
I have no overview about what was uploaded at the moment, nor about the number of pages on ZzE. (I am trying to download another complete backup of ZzE now, because the one I had was not complete.)
Also, it is possible that there could be '<body with="some" extra="attributes">', so that would not match.

But now I destroyed the index again, so we have to wait until it's finished again.
Posted by: Johann
« on: June 25, 2018, 01:23:15 PM »

Just to inform Nyom Moritz : no email received, no chance in matches, still 3708 for "<body>" with replace plugin.

If Nyom thinks Atma should/could do something/anything, may he let it be known.
Posted by: Moritz
« on: June 25, 2018, 03:17:49 AM »

Good. But it stopped again at around 4000/6827 while I was away.

Now I added some code to retry each request after 15 seconds when there are connection problems. So this should now not happen again.

* Moritz wondering why it was implemented in this way, to handle half of the logic in the browser in JavaScript, sending messages back and forth to the server for each file to index, instead of doing all the steps on the server, and only sending back info on request. It could be much faster.

Started updating index again. Going fast now, skipping all the already indexed files. I think it should take about 2 hours now.
When it's done, an email should be sent automatically to samana.johann at sangham.net. Hope it works.

_/\_
Posted by: Johann
« on: June 24, 2018, 10:43:57 PM »

It seems that the new indexing has it's effects. Now there are already 3708 pages matched.
Posted by: Moritz
« on: June 24, 2018, 06:25:31 PM »

Indizierung ist jetzt bei 3000/6787 und noch nicht gestorben. Bei derzeitiger Geschwindigkeit (ca 1,5 Sekunden pro Seite) dauert's wohl noch so ca. zwei Stunden.
Ich denke, das Neubauen war gar nicht nötig. Wenn er noch mal hängenbleibt, mach ich wieder "Update" statt "Rebuild", da sollte er wohl nahtlos fortsetzen.

Hängenbleiben tut er, wenn der Server keine Antwort schickt. (Passiert manchmal, die Seiten sind ja auch manchmal nicht erreichbar.) Dann wartet er einfach ewig, anstatt nach einem gewissen Zeitlimit einfach noch mal nachzufragen. Also das lässt sich leicht beheben, hab ich noch nicht eingebaut. Damit man wenigstens das Problem beim nächsten Mal nicht mehr hat.

Wegen der Funktion "alles ersetzen, ohne nachzuschauen", ohne Index: ich denke, das dürfte auch nicht so schwer sein, einzubauen.
Muss jetzt aber erst mal weg vom Computer, Holz hacken. Und dann zurück ans Geldverdienen. Also heut gibt's wohl noch keine Lösung dafür.

_/\_
Posted by: Johann
« on: June 24, 2018, 05:34:40 PM »

Soweit ich verstehe: Das Replace-Plugin braucht den Index, um erst einmal die Seiten zu finden, auf denen das Suchmuster vorkommt.

Das war auch Atmas Denke (:replace sucht irgendwo in einer Datenbank welche seiten durchsuchtwerden können) und dann "einfach" wie es etwa notepad++ macht, über die datenbanksoftware am Server. (outsourcing, im Prinzip, um Atmas techische Hilfsmittel und DB-Geschicke auszugleichen. Grunddaten, txt's, herrichten ist lokal angenehmer, wenn...)

Aber lieber Ziegel für Ziegel, als soviel in Verstrickungen zu leiten.

Ist wohl alles der Grund, warum große wikis "robots"-techniken benutzen.
Posted by: Moritz
« on: June 24, 2018, 05:19:12 PM »

Hr. Christooh hatte noch diesen Link gegeben: Search Index Issues , für Atma mehrheitlich "Spanisch", aber vielleicht etwas für Nyom Moritz zum ergreifen.
Sadhu! Das ist wohl hilfreich, um die Funktionsweise zu verstehen...

Atma ist nicht klar in wie weit replace-plugin den index braucht, der ja nie so aktuell ist wie der file-inhalt (dachte es geht um link/file ansich)
Soweit ich verstehe: Das Replace-Plugin braucht den Index, um erst einmal die Seiten zu finden, auf denen das Suchmuster vorkommt.

Eine Option, um gar nicht auf den Index zurückzugreifen und einfach alles "blind" zu ersetzen, wäre wohl sicher auch gut zu haben, wenn man ganz genau weißt, dass man da nichts falsches ersetzt.

Ich weiß gar nicht, wie so ein Suchindex funktioniert. Nur, dass es wohl kaum möglich für den Server wäre, all die gefundenen Muster für 2000 Seiten in Sekundenbruchteilen aufzulisten, wenn er dafür tatsächlich jede einzelne Datei öffnen und durchsuchen müsste.
Posted by: Johann
« on: June 24, 2018, 04:41:32 PM »

Hr. Christooh hatte noch diesen Link gegeben: Search Index Issues , für Atma mehrheitlich "Spanisch", aber vielleicht etwas für Nyom Moritz zum ergreifen.

Atma ist nicht klar in wie weit replace-plugin den index braucht, der ja nie so aktuell ist wie der file-inhalt (dachte es geht um link/file ansich)
Posted by: Moritz
« on: June 24, 2018, 04:27:58 PM »

Nachdem ich jetzt das Skript inspiziert hab, und der Fortschritt immer noch bei 95/6787 Seiten ist, fang ich noch mal von vorn an und gucke weiter, ob ich rausfinde, warum er stehen bleibt und ob man das beheben kann.