On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
> Ik ben nog niet overtuigd. Zoals een aantal van je eerdere "projecten"
> heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie er
> mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en dan
> hoor ik dat graag.
>
Beste Wilfred,
Dat heb je zeker verkeerd. Dit is een serieus project waarvan de
uitkomst niet alleen door OpenTaal maar ook een aantal andere
organisaties in Nederland en België die actief zijn Nederlandse
woordenlijsten bezig zijn gebruikt gaat worden.
Bij veel projecten hebben mensen vaak een mening maar is het een
uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier
http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en
buiten de mailinglijst veel al opbouwende discussie en positieve
reacties losgemaakt.
De versie op GitHub wordt nadat al het commentaar is verwerkt refactored
en is momenteel work in progress.
>> De community van Stichting OpenTaal is er mee aan de slag gegaan en het
>> heeft veel inzichten geven.
>
> Wat voor inzichten dan?
>
>> 1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of
>> woordenlijst?
>
>> 2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen
>> tegen de uitgebreide lijst die wel hebben.
>
> Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren voordat
> je gaat programmeren. Als je mijn mening wil weten: lekker belangrijk.
> Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij de
> "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan me
> bijna niet voorstellen dat hier niet al een (de facto) standaardregel
> voor is.
Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in
voorbeelden zijn uitgeschreven.
>
>> Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe
>> de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A
>> moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd)
>> geen
>> beginnen aan. Die informatie is soms bekend maar niet volledig en
>> uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
>
> "het is niet mogelijk in een geautomatiseerd systeem" is altijd een
> zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet
> andersom :-))
De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand
van de uitspraak te maken, zijn niet in enkele regels code te vangen.
Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens
auteursrecht bij kijken als delen van die collecties (afgeleid) worden
gebruikt.
>
>> Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale
>> gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements
>> te laten vallen omdat je bij de standaard de sortering van de locale
>> blijft. Wel vervelend is dat veel programmeertalen er een heel eigen
>> sortering op nahouden.
>
> En om de chaos te completeren verzinnen jullie er niet iets anders bij ;-))
Dat hangt af van een paar zaken waar we met de default sortering niet
geheel content zijn, namelijk:
- namen zoals Nauw van Calais
- Griekse letters zoals in λ-calculus
- getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet
Verder is hier meer te lezen over regionale verschillen:
https://nl.wikipedia.org/wiki/TussenvoegselWat dit project op gaat leveren zal zowel in Vlaanderen als in
Nederlands bruikbaar moeten zijn.
Meer informatie is te vinden op:
http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4Het project is om te onderzoeken wat er allemaal bestaat, welke eisen en
wensen er zijn, hoe die overeenkomen met de verschillende bestaande
sorteringen, welke wensen we kunnen herformuleren of kunnen laten vallen
om zo veel mogelijk op een bestaande oplossing uit te komen en
*eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd
een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden
we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt
bij de grote woordenboekuitgeverijen.
Groeten,
Pander
>
> Groeten,
> Wilfred
>
>
> On Monday, May 4, 2015 6:11 PM, Pander <
pander@users.sourceforge.net> wrote:
>
>
>
> > Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R"
> > (correct in NL) of the "V"? Zijn daar nog regionale verschillen in
> > tussen Nederlands en Vlaams?
>
> Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op
>
http://woordenlijst.org <
http://woordenlijst.org/>niet voor.
> OpenTaal heeft die wel een aantal,
> met name toponiemen zoals:
> Nauw van Calais
> Unie van de Comoren
> huis van Oranje-Nassau
> hertog van Alva
> Vlakte van Jizreël
> Landengte van Panama
> Grote Van Dale
> Van Ewijcksluis
>
> Je schrijft dat het algorithme geen
> > onderscheid maakt tussen "woorden" en "afkortingen".
>
> In het geval dat je
> > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de
> > gesorteerde lijst er uitzien?
>
>
> Groeten,
>
> Pander
>
> >
> > Groeten,
> > Wilfred
> >
> >
> >
> > On Friday, May 1, 2015 7:42 PM, Pander
> <
pander@users.sourceforge.net <mailto:
pander@users.sourceforge.net>>
> wrote:
> >
> >
> >
> > Hoi allemaal,
> >
> > Mochten jullie interesse hebben in het sorteren van Nederlandse
> woorden
> > voor een woordenboek of -lijst, denk eens mee voor
> >
https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md> >
> > Groetjes,
> >
> > Pander
> > _______________________________________________
> > TeX-NL mailing list
> >
TeX-NL@ntg.nl <mailto:
TeX-NL@ntg.nl> <mailto:
TeX-NL@ntg.nl> <mailto:
TeX-NL@ntg.nl>>
> >
http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl