WPMP, Wikipedia für Mobipocket

Willkommen!

Wenn du im Nexave-Forum mitmachen möchtest, schreib an community@nexave.de. Wir haben die Registrierungsfunktion in unserem Diskussionsforum nämlich deaktiviert, weil sich praktisch nur noch Spammer und Werbebots registriert haben. Per E-Mail sind wir dir gern behilflich, einen Account anzulegen.
  • Kann mir bitte jemand sagen, wo ich den download finde. Ich glaube auf Dauer kommt niemand an der größeren Version vorbei, da eine Ende des Wachstums der Wikipedia nicht abzusehen ist.


    Na klar kommt man um größere Wikipedias nich rum. Aber wenn es nicht geht dann muß halt die ein GB Wiki genügen. Aba damit komm ich klar!

  • Hallo,


    hier mal ein (p|P)aar Kommentare von mir:


    1.


    Eine kleine Wikipedia zu kompilieren, ist nur eine Frage einer guten Bewertungsfunktion für Artikel, die z.B. die besten 50% raussucht. Wie schon erwähnt, arbeitet man da schon bei der Wikimedia-Foundation dran - hier ein Vorgeschmack:


    http://tools.wikimedia.de/~leon/stats/wikicharts/


    Die Daten basieren auf einem Javascript, dass jeden 500sten Aufruf eines Artikels zählt. Natürlich ist eine Top-100 nicht wirklich sinnvoll - ich brauche eine Top 400000 oder so. Leider reagiert der Autor dieses Systems nicht auf meine eMails. Ich versuche zur Zeit Shell-Zugriff auf den "Wikimedia-Toolserver" zu bekommen - dann komme ich vielleicht auch so an die Daten ran. Eine sinnvolle 1G- oder auch 512MB-Version ist so leicht zu bewerkstelligen - auch fuer zukuenftige Versionen.


    2.


    Bilder in die Artikel einzubauen scheitert daran, dass die statischen Dumps keine Bilddateien enthalten. Allerdings enthalten sie auch keine Formeln und die haben auch den Weg in die eBooks gefunden :) . Nun liegen die Formeln in einem sehr gut strukturierten Verzeichnisbaum - man muss lediglich 4096 HTML-"Verzeichnisse" herunterladen und hat dann die URLs aller Formeln. Die Sache ist bei Bildern etwas komplizierter - da muss ich erst alle Artikel nach img-Tags durchsuchen und die entsprechenden URLs herunterladen. In jedem Fall wuerden nur die verkleinerten Bilder ins eBook wandern - sonst wuerde es viel zu gross werden. Wenn ich Zeit habe, probier' ich das in den naechsten Tagen mal aus.


    Viele Gruesse,


    Frank

  • Erstmal super dass du hier so fix antwortest. Glaubst gar nicht wie viele Leute dir für Deine Arbeit dankbar sind!!!


    Dann noch SUPER weil sich das hört so gut anhört!!! :thumbup:


    Allerdings macht es vielleicht wenig Sinn, wenn das Projekt noch in einem ziemlichen beta-Stadium is, da schon rumzukonvertieren, oder? Dann machst Du Dir vielleicht doppelte und dreifache Arbeit.


    Außerdem bin ich bei dieser 'Top???' Geschichte auch vom Prinzip her etwas unschlüssig. Wenn viele Wikibesucher Schlagersänger nachschlagen, is alles voller Schlägersänger. Andere, vielleicht interessantere Bereiche bleiben dann draußen :(. und ich mag doch keinen schlager ;)


    Deswegen wäre eine einmalige Konvertierung der April 07 Version super :rolleyes:, also die die es schon gibt mit links. die links sind ja das schöne an der Wiki :thumbup: .


    Die ist zwar etwas über 1 Gb (damit 300 MB kleiner als die August verson) aber so ziemlich alle Geräte schlucken ja 2 GB karten. Inkompatibel wirds bei vielen Geräten ab größeren Karten.


    PS: Wie lange dauert sowas denn bei Dir? Und wie groß ist Dein Cluster? Für so normalsterbliche ist das ja quasi unmöglich :weint: .

  • nur so eine idee zum größenproblem wegen der beschränkung mancher geräte auf karten <= 1gig:


    da es sich doch eh um eine ansammlung von einzeldateien im verzeichnis SUBDOCS handelt, ließen sich doch prinzipiell mehrere karten verwenden. dann landet A-K auf karte 1 und I-Z auf karte 2 oder so. müßte halt nur den machern von mobipocket vorgeschlagen werden (und denen von tomeraider, aber nach dem was man hier so liest, wäre das wohl aussichtslos). wenn´s genug leute haben wollen und mobi auch mitteilen ...

    mfg


    juggernaut


    Herr Schaaf, wie trainieren Sie Freistöße? Gibt es da auch noch mehr Varianten als "BUMM DRAUF"?
    T. Schaaf (trocken): "BUMM DRIN"!

    Zitat von OWL (zu ´runterfallenden $martphones):

    Man könnte höchstens universell festhalten, daß es entweder hält oder kaputtgeht.

  • Allerdings macht es vielleicht wenig Sinn, wenn das Projekt noch in einem ziemlichen beta-Stadium is, da schon rumzukonvertieren, oder? Dann machst Du Dir vielleicht doppelte und dreifache Arbeit.


    Ich haette vielleicht nicht Betastadium sondern sondern im Fluss gesagt. Die Konvertierung ist ein hochgradig modularer Prozess. Da kann ich einfach ein neues Modul einklinken, dass die Artikel filtert - der restliche Aufwand besteht darin, alles an den Cluster zu schicken und eine Weile zu warten.



    Außerdem bin ich bei dieser 'Top???' Geschichte auch vom Prinzip her etwas unschlüssig. Wenn viele Wikibesucher Schlagersänger nachschlagen, is alles voller Schlägersänger. Andere, vielleicht interessantere Bereiche bleiben dann draußen :(. und ich mag doch keinen schlager ;)


    Diese top???-Geschichte ist zur Zeit die einzige Art Bewertungsfunktion, die ich habe. Wenn Du eine andere Idee hast (Google Ranks, Umfrage, ...) - immer her damit.



    Deswegen wäre eine einmalige Konvertierung der April 07 Version super :rolleyes:, also die die es schon gibt mit links. die links sind ja das schöne an der Wiki :thumbup: .


    Zwei Sachen sind der Grund dafür, dass es keine erneute Konvertierung der 2007/04 geben wird:


    1. Die Skripte kommen mit dieser bereits nicht mehr zurecht. Diese 2007/04 (und vermutlich auch fruehere) bestand aus teils recht verkorkstem HTML, das aufwendiger zu verarbeiten war (->langsamer). Die seit der 2007/08 nicht mehr noetigen Bearbeitungsschritte hab' ich deshalb rausgeschmissen.


    2. Es gaebe keine Formeln, da deren Speicherort mittlerweile mit denen der 2007/09 ueberschrieben wurde.


    Bottom Line: Ich kann derzeitig nur mit der 2007/08 richtig Arbeiten, da ich von dieser HTML, Formeln und Bilderdownmoeglichkeit hab'.



    Die ist zwar etwas über 1 Gb (damit 300 MB kleiner als die August verson) aber so ziemlich alle Geräte schlucken ja 2 GB karten. Inkompatibel wirds bei vielen Geräten ab größeren Karten.


    Vorsicht mit Groessenvergleichen zu aelteren Versionen. Ich hab' damals die Auswirkungen fehlerhafter C2-Kompression noch nicht gekannt. Die 2007/04 wuerde heute ca 200MB groesser sein.



    PS: Wie lange dauert sowas denn bei Dir? Und wie groß ist Dein Cluster? Für so normalsterbliche ist das ja quasi unmöglich.


    Wie lange es dauert haengt natuerlich von Anzahl und Staerke der Rechner ab. Die Report-Dateien, die zu jeder Version erzeugt werden (report.html), geben Aufschluss darueber.


    Der Cluster hat in seinen besten Zeiten 32 Prozessorkerne (ich glaube in insgesammt 25 Computern - bin aber nicht sicher) enthalten. Morgen kommen noch 3 o. 4 richtige Schlachtschiffe dazu - Core2Quattros. Die koennen dann 4 Datenfiles gleichzeitig in nur 8 Stunden komprimieren :) .


    Viele Gruesse,


    Frank

  • Hi Frank,


    > Diese top???-Geschichte ist zur Zeit die einzige Art
    > Bewertungsfunktion, die ich habe. Wenn Du eine andere Idee hast
    > (Google Ranks, Umfrage, ...) - immer her damit.


    Hmmm, da hast Du natürlich recht. Leider kann ich Dir auch aus dem Stand keine andere Möglichkeit nennen. Aber vielleicht posted ja jemand hier ienen vorschlag.


    Vielleicht machen die Abrufzahlen ja auch viel sinn. Kann man die denn noch irgnedwo einsehen? Mich würden da stichprobenweise die letzten 1000 oder so interessieren. Wenn die alle nicht taugen dann kann man ja über die methode nachdenken.


    Aber die Frage ist natürlich inwieweit man sogar über 50% der Artikel abschneiden müßte, weil die guten ja auch alle vom Umfang sehr groß sind. das heißt das selbst die Top 50% vielleicht noch 3/4 des Platz ausmachen. Dann wird die 1GB-grenze eng...



    > 1. Die Skripte kommen mit dieser bereits nicht mehr zurecht. Diese
    > 2007/04 (und vermutlich auch fruehere) bestand aus teils recht
    > verkorkstem HTML, das aufwendiger zu verarbeiten war (->langsamer).
    > Die seit der 2007/08 nicht mehr noetigen Bearbeitungsschritte hab'
    > ich deshalb rausgeschmissen.
    >
    > 2. Es gaebe keine Formeln, da deren Speicherort mittlerweile mit
    > denen der 2007/09 ueberschrieben wurde.
    >
    > Bottom Line: Ich kann derzeitig nur mit der 2007/08 richtig
    > Arbeiten, da ich von dieser HTML, Formeln und
    > Bilderdownmoeglichkeit hab'.
    > Vorsicht mit Groessenvergleichen zu aelteren Versionen. Ich hab'
    > damals die Auswirkungen fehlerhafter C2-Kompression noch nicht
    > gekannt. Die 2007/04 wuerde heute ca 200MB groesser sein.


    Ok, das sind schlagende argumente, da kann man dann nichts machen :(.



    > Wie lange es dauert haengt natuerlich von Anzahl und Staerke der
    > Rechner ab. Die Report-Dateien, die zu jeder Version erzeugt werden
    > (report.html), geben Aufschluss darueber.
    >
    > Der Cluster hat in seinen besten Zeiten 32 Prozessorkerne (ich
    > glaube in insgesammt 25 Computern - bin aber nicht sicher)
    > enthalten. Morgen kommen noch 3 o. 4 richtige Schlachtschiffe dazu
    > - Core2Quattros. Die koennen dann 4 Datenfiles gleichzeitig in nur
    > 8 Stunden komprimieren :) .


    ja, für normalsterbliche ist sowas natürlich undenkbar :kichert: . super das du so viel power hast und dann für so ein nettes projekt einsetzt. herzlichen dank :love:.

  • Hallo,


    meiner Meinung nach lohnt sich der Aufwand für die ganze Auswahl nicht sonderlich. Ein Wikipedia Light zu machen, indem man irgendwelche Artikel selektiert ist immer schwierig. Der eine mag keine Schlagersänger und der andere liebt gerade dies und schaut ständig rein.


    Das Problem mit der Größe der Wikipedia wird immer bestehen bleiben. Derzeit kann ein Treo 680 eine 8 GB SDHC Karte vertragen, 2 GB gehen fast in jedem modernen Endgerät. Und eine 2 GB Karte extra kostet nun wirklich nicht die Welt (ca. 20 €). Die muss man dann halt zusätzlich mitnehmen.


    Ich hätte immer gerne den vollen Dump


    Just my 2 ct.



    Gruss,
    Alexander

  • Sehe ich genauso. Der Sinn eines Nachschlagewerks ist ja eben die Umfänglichkeit (und natürlich die Qualität) der Einträge.
    In der jetzigen Form ist WPMP eine absolute Killerapplikation. Ich denke, wenn man eine light-Variante hätte und dann mehrmals nach nicht vorhandenen Einträgen gesucht hat, verlieren auch die evtl. 1 GB einer light-Variante schnell an Attraktivität für den User.
    Außerdem sollte man auch beachten, dass die Kosten für einen Online-Abruf eines Artikels immer geringer werden. Mit meiner simyo-Karte bleibe ich beim Abruf eines Artikels in schöner Regelmäßigkeit unter der 25kb-Grenze, bei der nichts berechnet wird (derzeit). Dieser Preis-Trend sollte sich zumindest nicht umkehren in der nächsten Zeit.
    Ich habe eine 4GB-Karte in meinem Treo, die mich 45 € gekostet hat. Wenn ich mal hochrechne, wieviele Artikel ich online sogar mit Bildern für diese Summe hätte abrufen können...
    Trotzdem nochmal: Solange die Größe des komprimierten Dumps nicht die (sagen wir mal) 2GB-Grenze überschreitet, ist WPMP die meistgenutzte Applikation auf meinem 650er.

  • An alle, die einen Artikelfilter nicht fuer sinnvoll halten:


    Ich zum Beispiel besitze ein Telefon, das bei 2GB eine harte Grenze hat. Die Wikipedia-Inhalte wachsen derzeitig ziemlich schnell und so sehe ich auf absehbare Zeit gar keine andere Möglichkeit.


    Noch eine schlechte Nachricht:


    Hab' gerade Mal einen automatischen Download aller in der WP eingebetteten Mini-Bildchen angeworfen - das ist zwar noch nicht fertig - meine Hochrechnung kommt jedoch auf 1,2GB fuer die Bildchen, was zusammen mit der Text-Version weit ueber der magischen 2G-Grenze ist.


    Wird also nix :(


    Gruss,


    Frank

  • das ist für user von 4GIG karten oder sogar von 8GIG SDHC karten, wie sie in meinem treo werkelt kein problem.
    läuft ohne murren und ich würde mich megamässig über eine bebilderte WP version freuen...


    just my 2 cent


    DeCoy


    ps.: das hätte ich fast vergessen... einen mordsmäßiges DANKESCHÖN :thumbup:
    für diese geniale Arbeit!!

  • Bei diesem Problem handelt es sich um eine Macke im Kompressionsalgorithmus von Mobipocket, die ich bis jetzt unterschätzt/falsch interpretiert hab'. Dabei waren 5 Datenfiles betroffen, die ich schnell nochmal mit geringerer Kompression übersetzt hab'. In Kürze sollte die 2007/08-5 auf dem Fileserver auftauchen, bei der das behoben _sein sollte_ (viele Konjunktivs :) ) - kann das hier/jetzt leider nicht ausprobieren.


    Gruss,


    Frank

    Also Punkt 1 scheint behoben zu sein. Der Ahrensburg Reihnfeld Link führt zum richtigen Artikel.
    Das mit den Anzeige von auschließlich Punkten auf den ersten Indexseiten besteht jedenfalls bei mir weiterhin. Haben dieses "Problem" auch noch andere?

  • Ich habe eine 4GB-Karte in meinem Treo, die mich 45 € gekostet hat. Wenn ich mal hochrechne, wieviele Artikel ich online sogar mit Bildern für diese Summe hätte abrufen können...

    naja, du wirst die karte auch noch für was anderes benutzen... mp3´s zum beispiel oder fotos ... :)

    mfg


    juggernaut


    Herr Schaaf, wie trainieren Sie Freistöße? Gibt es da auch noch mehr Varianten als "BUMM DRAUF"?
    T. Schaaf (trocken): "BUMM DRIN"!

    Zitat von OWL (zu ´runterfallenden $martphones):

    Man könnte höchstens universell festhalten, daß es entweder hält oder kaputtgeht.

  • Hallo :)


    Klar ist auf der Karte noch etwas anderes, aber wenn ich eine Wikipedia will, brauche ich halt den Platz. Da ist nichts dran zu ändern.


    => 1. Auf Wikipedia verzichten
    => 2. lösche mp3s
    => 3. kaufe eine weitere Karte


    :D


    Ich hatte auch das Problem mit den mp3. Allein meine CD Sammlung als mp3 passt sicher nicht auf die 8 GB Karte...und ich hätte wiederum noch ganz gerne v.a. die englische Wikipedia und französische dabei... ;(


    Gruß,
    Alexander


  • Also Punkt 1 scheint behoben zu sein. Der Ahrensburg Reihnfeld Link führt zum richtigen Artikel.
    Das mit den Anzeige von auschließlich Punkten auf den ersten Indexseiten besteht jedenfalls bei mir weiterhin. Haben dieses "Problem" auch noch andere?


    Das Problem mit den Indexseiten besteht bei mir auch noch.

  • Das Problem beim Index ist doch, dass die Buchstaben nicht dargestellt werden können! Wenn man draufklickt geht's. Vielleicht kann das im Index nicht dargestellt werden?!?

  • Hallo Frank,


    ich hab es schon mal erwähnt, aber hier nochmal:
    1000 Dank für Deine tolle Arbeit an WPMP! Ich denke, Du hast sehr viele
    Leute sehr glücklich gemacht! Und super, dass Du hier mitpostest!


    Ich
    war nun ein paar Tage nicht im Forum und beim Nachlesen der Posts der
    letzten Zeit hörte ich ganz plötzlich ganz laut die Weihnachstglöckchen
    läuten ^^ !

    Ein
    Hoffnungsschimmer tat sich auf!!!! Vielleicht würde der Traum ja
    wirklich mal Realität - eine Wikipedia mit Bildern am Palm via
    Mobipocket!


    Leider wurde ich dann ein paar Posts später unsanft aus den Träumen gerissen :weint:

    Schade,
    dass Dein Telefon nur 2GB kann. Insgesamt 2,4 GB (Text und Bilder)
    hätten locker auf die 4GB Karte gepasst mit noch einigem an Luft für
    wachsende Wikipedias.
    Wenn´s nur an Deiner Karte gelegen hätte,
    hätte man ja eine Lösung finden können, aber so wie es klingt dürfte es
    an der Hardware des Handys liegen! Schade.....


    Aber nichstdestotrotz, Deine Textversion ist wirklichauch eine tolle Sache!


    lg
    marvin

  • Hi,


    heute fand ich auf der WPMP Seite folgenden EIntrag:


    • 20.09.2007 Compilation of an
      experimental encyclopedia based on Wikipedia's 2007/08 has started.
      This one will feature images. I'll release it, if it fits on a 2GB
      card.


    <h2></h2>
    Maybe you also can release it if it doesn´t fit on a 2 GB card??? :P


    regards


    Marvin ;)