[Tex-nl] Woorden sorteren

Wilfred van Rooijen wvanrooijen at yahoo.com
Tue May 5 14:35:54 CEST 2015


Voor wat betreft de kanji in het Japans: ieder karakter bestaat uit een of meer bouwsteentjes. Deze bouwsteentjes worden "radicals" genoemd. Er zijn enkele tientallen radicals. Kanji-woordenboeken e.d. worden geindexeerd op radical: de radicals staan in volgorde van de "stroke count". Dus je hebt eerst de sectie van alle radicals van 1 streep; dan de radicals met 2 strepen; dan de radicals met 3 strepen, etc. Ieder karakter heeft een "belangrijkste" radical.

 Als je dus een karakter moet opzoeken in een (elektronisch) woordenboek, dan moet je eerst weten welk onderdeeltje van het karakter "de" radical is. Vaak is "de" radical de eerste radical die je schrijft als je het karakter schrijft (de schrijfwijze, dus de volgorde waarin je de strepen op papier zet) van de karakters is in principe vast. Dan ga je naar de sectie van die radical en dan is het zoeken naar het karakter. De karakters worden gesorteerd op basis van de stroke count dus je moet enige basiskennis hebben over hoe je een karakter moet schrijven. Bijvoorbeeld, het karakter 田 heeft paradoxaal genoeg maar 5 strokes (je zou 6 verwachten), en 市 heeft 5 strokes (je zou 3 of 4 verwachten).

In de loop van de jaren zijn er verscheidene "databases" ontstaan (Tuttle, Hens met ieder hun eigen volgorde van de radicals, en in sommige gevallen is het ook niet eenduidig bepaald welk onderdeel van een karakter als "de" radical wordt gezien. Dat betekent dat de volgorde van de karakters sterk verschilt tussen de verschillende systemen.
Japanse computers sorteren in principe volgens de JIS-standaard. De JIS-set is een soort basis-set van karakters die minimaal ondersteund moet worden in electronische apparatuur (niet alleen PCs, maar ook mobiele telefoons, kassa's, matrixborden langs de snelweg, infoborden op stations, etc). De JIS-standaard bevat in de orde van 6500 karakters; de "standaardset" van het ministerie van onderwijs (1950 karakters) is een subset van de JIS standaard. De JIS standaard is bij tijd en wijle nogal idiosyncratisch met de volgorde; de volgorde is niet dezelfde als de lijst van het ministerie van onderwijs. Voor zover ik weet volgt Unicode de JIS-standaard, maar voor karakters die buiten de JIS-lijst weet ik niet hoe de volgorde wordt bepaald (*).
(*) Men zegt wel eens dat er 50.000 Chinese karakters zijn (waren). Dat is in principe waar, maar er zijn heel heel veel karakters die slechts in details verschillen (een radical verschilt) maar verder met gelijke betekenis en uitspraak. Na WO2 heeft men gepoogd om wat orde in de chaos te brengen door "doublures" weg te halen, sommige "ingewikkelde" radicals te vereenvoudigen, etc. Dit leidde tot de eerste lijst van 1848 "basiskarakters". Helaas bleek al snel "de mense" in de praktijk meer karakters wilden: bijvoorbeeld familienamen, en eigennamen van steden en regio's wilde men liever blijven schrijven met de oude karakters. De lijst werd uitgebreid naar 1950 karakters maar ook dat bleek niet genoeg: bijvoorbeeld religieuze (boedhistische en shintoistische) geschriften gebruiken veel niet-standaard karakters. Nou ja, als je een routebeschrijving naar een tempel wil printen zal je PC toch ook die afwijkende karakters moeten aankunnen, dus vandaar dat de JIS standaard uiteindelijk rond de 6500 karakters heeft. In de praktijk is dat voldoende. Overigens is er een extensie op de JIS set voor mobiel dataverkeer die ook enkele tientallen emoticons en icoontjes heeft; de icoontjes van WhatsApp komen uit de JIS standaard.

Groeten,Wilfred 


     On Tuesday, May 5, 2015 5:37 PM, Pander <pander at users.sourceforge.net> wrote:
   
 

 

On 5 May 2015 03:01:21 CEST, Wilfred van Rooijen <wvanrooijen at yahoo.com> wrote:
>> Van welke andere projecten heb je ook een dergelijke mening? Hopelijk
>> kan ik die ook graag ontkrachten.
>
>(ik parafraseer een beetje :-))  )
>
>20 december 2013: "ik heb iets met een dictee geknutseld, willen jullie
>het bekijken en naar CTAN uploaden?"

Correcte tekst is
http://www.ntg.nl/pipermail/tex-nl/2013-December/000659.html

Die is door verschillende mensen gereviewed en positief ontvangen en uiteindelijk naar CTAN gegaan. Deze wordt daar nog toegevoegd heb ik bevestigd gekregen per email.

>10 november 2014: "Ik heb iets met fonts gedaan willen jullie er naar
>kijken en uploaden naar CTAN?"

Correcte tekst is
http://www.ntg.nl/pipermail/tex-nl/2014-November/000730.html

Hier ben ik met beheerders van CTAN in dialoog over welke fonts wel en welke niet geschikt zijn. Inmiddels ziet dat project er veel uitgebreider uit. 

>Ik wil je natuurlijk niet in een slecht daglicht stellen maar dit soort
>emails wekt mijn wrevel op. Heb je iets te bieden, dan vind ik dat
>prima maar opmerkingen als "willen jullie er eens naar kijken" wekt de
>indruk van luiheid en ondeskundigheid.

Dan zit het in de verwoording. Juist om niet de waarheid in pacht te hebben vraag ik om terugkoppeling van wat ik heb gebouwd, aan ga beginnen of me bezig ben. Het antwoord op een dergelijke vraag mag altijd nee zijn. 

Bij mijn vraag over alfabetisch sorteren was heel duidelijk vermeld dat een project daarover was gestart en het dat het al af was. Juist door dat te communiceren beoogde ik open te zijn. Merendeel van het werk wordt ook door mij gedaan en als het je niet interesseert schrijf je er toch veel over. 

Wat mij betreft sluit ik dit deel van de discussie zo pragmatisch mogelijk af tenzij anderen hier nog iets over willen zeggen. 

>> Dat sorteren voor woordenboeken, woordenlijsten en dergelijke niet
>> triviaal is. Met name software zoals Perl, Python en Java zul je
>> expliciet moeten instrueren om het volgens de juiste locale te doen.
>
>> De meeste westerse locales betreft sortering zijn gebaseerd op
>> collocatie definities voor Latin-1.
>
>Als de "standaardtalen" het blijkbaar niet goed doen, dan is ofwel de
>locale niet goed gedefinieerd of er zitten fouten in het
>programmeerwerk ;-)) . Voor zover ik weet (maar let wel, ik ben geen
>ervaringsdeskundige) sorteren talen als Python in principe of de
>volgorde van de karakters zoals gedefinieerd in Unicode, maar de
>locale-setting kan daarvan afwijken. Mijn computers staan allemaal
>ingesteld op de Japanse locale, maar die is ook niet eenduidig: Windows
>gebruikt een andere sortering dan linux (*).

Locale Latin, die door veel talen wordt gebruikt is op bepaalde aspecten voordeliger voor de ene taal t.o.v. de andere. Locale Latin aanpassen geeft te veel gedoe. I.i.g. is sortering locale Latin beter dan mondiale volgorde in Unicode. 

>Aan de andere kant, inderdaad, dit soort sorteeralgoritmes zijn  nodig
>en iemand moet het vuile werk opknappen. En je hebt (inderdaad, en
>natuurlijk) te maken met het feit dat er eigenlijk geen definities zijn
>die de lading voor 100% dekken en er zullen altijd uitzonderingen op de
>regels zijn. Hulde voor het feit dat jullie dit werk willen doen. Ik
>zou het niet kunnen omdat het me niet voldoende interesseert. 

Dank je wel. Voor mijn werk en het werk van anderen is dit wel van belang en ik ben degene die hier de meeste tijd in investeert. Het gaat niet 100% alle partijen tevreden stellen, vandaar mijn uitnodiging, voor wie wil, om mee te denken. 

>
>> Met meer achtergrond; die informatie die daarvoor nodig is, is niet
>uit
>> de schrijfwijze van woord te halen maar is metadata die uit een
>andere
>> collectie moet komen. De collecties waar ik toegang tot heb, en dat
>zijn
>> zeer uitgebreide, zou je dan deels met het sorteeralgoritme mee
>moeten
>> distribueren en dat maakt het lastig.
>
>Maar je zou toch zeggen dat in de linguistiek toch wel bepaalde regels
>bekend zijn omtrent de fonemen in het Nederlands. "aub" is geen foneem,
>maar "havo" daarentegen bevat 2 fonemen. Je zou verwachten dat dit
>soort info beschikbaar is voor een sorteeralgoritme, maar ik begrijp
>dat ook dit geen sluitende oplossing zal bieden voor alle gevallen. 

Er zijn dus veel varianten van die regels. Bijvoorbeeld Van Dale heeft weer eigen details t.o.v. wat sortering met locale oplevert. 

>Wat betreft het meeleveren van de woordenlijsten, je hoeft toch in
>feite alleen de afwijkingen mee te leveren? Maar ik begrijp dat het een
>heel gedoe is om een dergelijke lijst op te stellen.
>
>> Ik hoop dat ik op deze manier een deel van je zorgen weg heb kunnen 
>> halen.
>
>Ik maak me geen zorgen hoor. Het is alleen een onderwerp dat mij echt
>volstrekt niet interesseert. In mijn leven als academicus gebruik ik
>veel tekstboeken, en iedere index is anders georganiseerd. Voor mij is
>het van belang dat ik zonder al teveel moeijte het onderwerp kan vinden
>waar ik naar op zoek ben. Ik begrijp dat voor woordenboeken en
>dergelijke er waarschijnlijk bijkomende voorwaarden en idealen zijn.

Dat nemen we ook in ogenschouw. Veelal zal digitaal gezocht worden en speelt dit geen rol. Als men in folio Nauw van Calais niet bij de C kan vinden komt het aan pp kunde van de gebruiker. ;) 

>Groeten,Wilfred
>(*) voor diegenen die erin geinteresseerd zijn: de "volgorde" in het
>Japans is in principe als volgt:
>- medeklinkers in volgorde: -, k, s, t, n, h, m, y, r, w- binnen iedere
>medeklinker is de volgorde a, i, u, e, o- de eerste medeklinker is "-",
>dat betekent afwezigheid van een medeklinker.
>Dus sorteren op a, i, u, e, o, ka, ki, ku, ke, ko, sa, si, su, se, so,
>etc. Niet alle combinaties komen voor (yi, ye, wi, wu, we komen
>bijvoorbeeld niet voor).
>
>De hiragana en katakana karakters hebben een fonetische waarde en zijn
>in deze volgorde opgenomen in Unicode. Het gedonder begint natuurlijk
>met de chinese karakters, want hoe moet je die sorteren? Op uitspraak?
>Dat is lastig, want de uitspraak van een karakter verschilt van geval
>tot geval. De volgorde in Unicode gebaseerd is op andere kenmerken dan
>(alleen) uitspraak. Om een voorbeeld te geven: 東京 Tokyo en 東舞鶴 "higashi
>Maizuru" worden allebei gesorteerd bij de 東 maar de uitspraak verschilt
>;-))
>Een van de rare verschillen tussen Windows en linux is dat Windows de
>Japanse "haakje openen "(" (dat is dus een haakje dat twee posities
>inneemt) sorteert voor het latijnse alfabet, terwijl linux het sorteert
>na de "z". Naar mijn ervaring zijn de meeste sorteeralgorithmes
>redelijk robuust, als je je PC instelt op locale "engels" dan gaat het
>sorteren van Japanse karakters nog steeds goed. 

Dat probleem met die haakjes zou je met een workaround kunnen fiksen door ze voor de sortering tijdelijk te vervangen door een karakter dat in die context nooit wordt gebruikt maar wel de juist sortering bewerkstelligd. 

Ik heb ook Japanse woorden gezien die op radicale sorteerden. Komt dat bekend voor? 

Voor wie interesse heeft in Engelstalige locale voor Nederlanders geografisch gebied, zie zorgvuldig uitontwikkelde en gereviewde https://github.com/PanderMusubi/locale-en-nl

Groeten, 

Pander

>
>On Monday, May 4, 2015 10:25 PM, Pander <pander at users.sourceforge.net>
>wrote:
>  
> 
>
> On 05/04/2015 01:39 PM, Wilfred van Rooijen wrote:
>> Ik ben nog niet overtuigd. Zoals een aantal van je eerdere
>"projecten"
>> heeft het (weer) een hoog "ik heb iets geknutseld en nu moeten jullie
>er
>> mee aan de slag"-gehalte. Tenzij ik het volkomen verkeerd begrijp en
>dan
>> hoor ik dat graag.
>> 
>
>Beste Wilfred,
>
>Dat heb je zeker verkeerd. Dit is een serieus project waarvan de
>uitkomst niet alleen door OpenTaal maar ook een aantal andere
>organisaties in Nederland en België die actief zijn Nederlandse
>woordenlijsten bezig zijn gebruikt gaat worden.
>
>Bij veel projecten hebben mensen vaak een mening maar is het een
>uitdaging ze echt inhoudelijk te betrekken. Dit project heeft hier
>http://lists.sf.own-it.nl/pipermail/opentaal/2015-May/thread.html en
>buiten de mailinglijst veel al opbouwende discussie en positieve
>reacties losgemaakt.
>
>De versie op GitHub wordt nadat al het commentaar is verwerkt
>refactored
>en is momenteel work in progress.
>
>
>>> De community van Stichting OpenTaal is er mee aan de slag gegaan en
>het
>>> heeft veel inzichten geven.
>> 
>> Wat voor inzichten dan?
>
>
>> 
>>> 1) Hoe ziet iedereen dit het liefst in een woordenboek, encyclopedie
>of
>>> woordenlijst?
>> 
>>> 2) Als iemand daar een algoritme voor heeft liggen kan ik dat testen
>>> tegen de uitgebreide lijst die wel hebben.
>> 
>> Ik zou zeggen dat je eerst definieert hoe je dit wil indexeren
>voordat
>> je gaat programmeren. Als je mijn mening wil weten: lekker
>belangrijk.
>> Het gaat er om dat je iets kan vinden, dus als "Nauw van Calais" bij
>de
>> "C" of de "N" te vinden is, is het wat mij betreft prima. En ik kan
>me
>> bijna niet voorstellen dat hier niet al een (de facto) standaardregel
>> voor is.
>
>Als uitgangspunt hebben we ook een lijst waarin de algemene eisen in
>voorbeelden zijn uitgeschreven.
>
>> 
>>> Klopt. Dat komt omdat bij het sorteren van de lijst niet bekent is
>hoe
>>> de uitspraak is. Bijvoorbeeld aub en a.u.b. zouden vooraan bij de A
>>> moeten komen en havo gewoon in de lijst. Daar was (geautomatiseerd)
>>> geen
>>> beginnen aan. Die informatie is soms bekend maar niet volledig en
>>> uiteindelijk is de trend vooral om op schrijfwijze te sorteren.
>> 
>> "het is niet mogelijk in een geautomatiseerd systeem" is altijd een
>> zwaktebod - je past het systeem maar aan aan de werkelijkheid en niet
>> andersom :-))
>
>
>De gegevens die nodig zijn om uitzonderingen op afkortingen aan de hand
>van de uitspraak te maken, zijn niet in enkele regels code te vangen.
>Dus is het niet makkelijk mogelijk. Daarbij komt ook nog eens
>auteursrecht bij kijken als delen van die collecties (afgeleid) worden
>gebruikt.
>
>> 
>>> Daar zijn we bijna tot de conclusie gekomen dat de sort die de
>locale
>>> gebruikt dit zeer netjes doet. Soms heb ik bepaalde kleine
>requirements
>>> te laten vallen omdat je bij de standaard de sortering van de locale
>>> blijft. Wel vervelend is dat veel programmeertalen er een heel eigen
>>> sortering op nahouden.
>> 
>> En om de chaos te completeren verzinnen jullie er niet iets anders
>bij ;-))
>
>Dat hangt af van een paar zaken waar we met de default sortering niet
>geheel content zijn, namelijk:
>- namen zoals Nauw van Calais
>- Griekse letters zoals in λ-calculus
>- getallen zoals in 100 eurobiljet t.o.v. 10 eurobiljet
>
>Verder is hier meer te lezen over regionale verschillen:
>https://nl.wikipedia.org/wiki/Tussenvoegsel
>Wat dit project op gaat leveren zal zowel in Vlaanderen als in
>Nederlands bruikbaar moeten zijn.
>
>Meer informatie is te vinden op:
>http://taaladvies.net/taal/advies/tekst/87/literatuurlijsten_algemeen/#4
>
>Het project is om te onderzoeken wat er allemaal bestaat, welke eisen
>en
>wensen er zijn, hoe die overeenkomen met de verschillende bestaande
>sorteringen, welke wensen we kunnen herformuleren of kunnen laten
>vallen
>om zo veel mogelijk op een bestaande oplossing uit te komen en
>*eventueel* goed bediscussieerd, goed onderbouwd en goed gedocumenteerd
>een uitbreiding aanbieden op wie daar behoefte aan heeft. Verder houden
>we ook de alfabetiseringsprincipes Nederlands aan zoals gebruikt wordt
>bij de grote woordenboekuitgeverijen.
>
>
>Groeten,
>
>Pander
>
>> 
>> Groeten,
>> Wilfred
>> 
>> 
>> On Monday, May 4, 2015 6:11 PM, Pander <pander at users.sourceforge.net>
>wrote:
>> 
>> 
>> 
>>    > Ik heb de site even bekeken - sorteer je "van Rooijen" bij de
>"R"
>>    > (correct in NL) of the "V"? Zijn daar nog regionale verschillen
>in
>>    > tussen Nederlands en Vlaams?
>> 
>>    Eigennamen komen in de lijst van de Taalunie die te doorzoeken is
>op
>>    http://woordenlijst.org <http://woordenlijst.org/>niet voor.
>>    OpenTaal heeft die wel een aantal,
>>    met name toponiemen zoals:
>>    Nauw van Calais
>>    Unie van de Comoren
>>    huis van Oranje-Nassau
>>    hertog van Alva
>>    Vlakte van Jizreël
>>    Landengte van Panama
>>    Grote Van Dale
>>    Van Ewijcksluis
>> 
>>    Je schrijft dat het algorithme geen
>>    > onderscheid maakt tussen "woorden" en "afkortingen".
>> 
>>    In het geval dat je
>>    > een lijst hebt als deze: "Aap AAp aap aAP b.v. bv B.V. BV" hoe
>zou de
>>    > gesorteerde lijst er uitzien?
>> 
>> 
>>    Groeten,
>> 
>>    Pander
>> 
>>    >
>>    > Groeten,
>>    > Wilfred
>>    >
>>    >
>>    >
>>    > On Friday, May 1, 2015 7:42 PM, Pander
>>    <pander at users.sourceforge.net
><mailto:pander at users.sourceforge.net>>
>>    wrote:
>>    >
>>    >
>>    >
>>    >    Hoi allemaal,
>>    >
>>    >    Mochten jullie interesse hebben in het sorteren van
>Nederlandse
>>    woorden
>>    >    voor een woordenboek of -lijst, denk eens mee voor
>>    >   
>https://github.com/OpenTaal/alphabetical-sort/blob/master/README.md
>>    >
>>    >    Groetjes,
>>    >
>>    >    Pander
>>    >    _______________________________________________
>>    >    TeX-NL mailing list
>>    >    TeX-NL at ntg.nl <mailto:TeX-NL at ntg.nl> <mailto:TeX-NL at ntg.nl
>>    <mailto:TeX-NL at ntg.nl>>
>>    >    http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
>> 
>>    >
>>    >
>>    >
>>    >
>>    > _______________________________________________
>>    > TeX-NL mailing list
>>    > TeX-NL at ntg.nl <mailto:TeX-NL at ntg.nl>
>>    > http://www.ntg.nl/cgi-bin/mailman/listinfo/tex-nl
>>    >
>> 
>> 
>> 
>
>
>
> 



 
  
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://www.ntg.nl/pipermail/tex-nl/attachments/20150505/e1f0372d/attachment-0001.html>


More information about the TeX-NL mailing list