On 05/02/2015 03:32 AM, Wilfred van Rooijen wrote:
Hmmm, ik neem aan dat dit probleem minstens zo oud is als de oudste tekstverwerker dus valt hier nog eer aan te behalen?
De community van Stichting OpenTaal is er mee aan de slag gegaan en het heeft veel inzichten geven.
Ik heb de site even bekeken - sorteer je "van Rooijen" bij de "R" (correct in NL) of the "V"? Zijn daar nog regionale verschillen in tussen Nederlands en Vlaams?
Eigennamen komen in de lijst van de Taalunie die te doorzoeken is op http://woordenlijst.org niet voor. OpenTaal heeft die wel een aantal, met name toponiemen zoals: Nauw van Calais Unie van de Comoren huis van Oranje-Nassau hertog van Alva Vlakte van Jizreƫl Landengte van Panama Grote Van Dale Van Ewijcksluis 1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie of woordenlijst? 2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen tegen de uitgebreide lijst die wel hebben. Je schrijft dat het algorithme geen
onderscheid maakt tussen "woorden" en "afkortingen".
Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is hoe de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd) geen beginnen aan. Die informatie is soms bekend maar niet volledig en uiteindelijk is de trend vooral om op schrijfwijze te sorteren. In het geval dat je
een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe zou de gesorteerde lijst er uitzien?
Daar zijn we bijna tot de conclusie gekomen dat de sort die de locale gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine requirements te laten vallen omdat je bij de standaard de sortering van de locale blijft. Wel vervelend is dat veel programmeertalen er een heel eigen sortering op nahouden. Groeten, Pander
Groeten, Wilfred
On Friday, May 1, 2015 7:42 PM, Pander
wrote: Hoi allemaal,
Mochten jullie interesse hebben in het sorteren van Nederlandse woorden voor een woordenboek of -lijst, denk eens mee voor https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
Groetjes,
Pander _______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl mailto:TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
_______________________________________________ TeX-NL mailing list TeX-NL@ntg.nl http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl