<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
<meta name="Generator" content="Microsoft Exchange Server">
<!-- converted from text --><style><!-- .EmailQuote { margin-left: 1pt; padding-left: 4pt; border-left: #800000 2px solid; } --></style>
</head>
<body>
<div>
<p dir="ltr">It isn't, because the MySQL data is always in UTF-8, even if the CWB index is in Latin-1...</p>
<p dir="ltr">Andrew.</p>
<div class="x_quote">On 31 Mar 2014 09:16, genereux &lt;genereux@clul.ul.pt&gt; wrote:<br type="attribution">
</div>
</div>
<font size="2"><span style="font-size:10pt;">
<div class="PlainText">I received feedback from the MariaDB technical team on this issue:<br>
<br>
&quot;A case-insensitive, but accent-sensitive collation that is available <br>
in MariaDB is latin1_general_ci,<br>
<a href="http://collation-charts.org/mysql60/mysql604.latin1_general_ci.html">http://collation-charts.org/mysql60/mysql604.latin1_general_ci.html</a>.
<br>
But for unicode characters MariaDB does not have general accent <br>
sensitive collations.&quot;<br>
<br>
I've tested the latin1_general_ci collation on MariaDB (which should be <br>
the same on mysql) and it works as advertised.<br>
<br>
For lack of better, this may be a convenient temporary solution for <br>
some corpora.<br>
<br>
Best,<br>
<br>
Michel<br>
<br>
<br>
<br>
On Thu Mar 27 2014 17:03, genereux wrote:<br>
&gt; The obvious explanation I can find why there are many collations<br>
&gt; (german, hungarian, spanish ...) is that accent and case sensitivities<br>
&gt; can be language specific.<br>
&gt; <br>
&gt; Yet, it seems to me that a collation offering ci and as across all<br>
&gt; accented characters should be suitable for some if not many languages,<br>
&gt; so my surprise of not finding one ...<br>
&gt; <br>
&gt; Best regards,<br>
&gt; <br>
&gt; Michel<br>
&gt; <br>
&gt; On Thu Mar 27 2014 16:23, Hardie, Andrew wrote:<br>
&gt;&gt; The MariaDB collations are identical to the MySQL ones, as there have<br>
&gt;&gt; been no relevant changes since the fork.<br>
&gt;&gt; The new Firebird collations are a lot better, which I hadn't known;<br>
&gt;&gt; thanks for pointing it out. However, it is somewhat academic, since I<br>
&gt;&gt; am not about to port the whole thing to a Firebird backend!<br>
&gt;&gt; best<br>
&gt;&gt; Andrew.<br>
&gt;&gt; -----Original Message-----<br>
&gt;&gt; From: cwb-bounces@sslmit.unibo.it<br>
&gt;&gt; [<a href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>] On Behalf Of Ciarán Ó Duibhín<br>
&gt;&gt; Sent: 27 March 2014 14:32<br>
&gt;&gt; To: Open source development of the Corpus WorkBench<br>
&gt;&gt; Subject: Re: [CWB] [CQPWeb] diacritics in CQPweb<br>
&gt;&gt; Browsing around, I see that Firebird 2.5 has UTF8 collations called<br>
&gt;&gt; UNICODE, UNICODE_CI and UNICODE_CI_AI (<br>
&gt;&gt; <a href="http://www.firebirdsql.org/file/documentation/reference_manuals/reference_material/html/langrefupd25-collations.html#langrefupd25-collations-unicode">
http://www.firebirdsql.org/file/documentation/reference_manuals/reference_material/html/langrefupd25-collations.html#langrefupd25-collations-unicode</a><br>
&gt;&gt; )<br>
&gt;&gt; For MariaDB, there are many collations containing &quot;ci&quot; in their<br>
&gt;&gt; names, but I can't see whether they are &quot;ai&quot; or &quot;as&quot; (<br>
&gt;&gt; <a href="https://mariadb.com/kb/en/supported-character-sets-and-collations/">https://mariadb.com/kb/en/supported-character-sets-and-collations/</a> )<br>
&gt;&gt; It looks like MySQL may have some catching up to do. I suppose there<br>
&gt;&gt; wouldn't be a repository of user-defined collations for MySQL?<br>
&gt;&gt; Ciarán Ó Duibhín<br>
&gt;&gt; ----- Original Message -----<br>
&gt;&gt; From: &quot;Hardie, Andrew&quot; &lt;a.hardie@lancaster.ac.uk&gt;<br>
&gt;&gt; To: &quot;Open source development of the Corpus WorkBench&quot; <br>
&gt;&gt; &lt;cwb@sslmit.unibo.it&gt;<br>
&gt;&gt; Sent: Thursday, March 27, 2014 12:11 AM<br>
&gt;&gt; Subject: Re: [CWB] [CQPWeb] diacritics in CQPweb<br>
&gt;&gt; <br>
&gt;&gt; <br>
&gt;&gt;&gt; Not helpful at all, alas, as you missed the critical context that we <br>
&gt;&gt;&gt; are<br>
&gt;&gt;&gt; talking about the Unicode collations available *in MySQL*, on which <br>
&gt;&gt;&gt; CQPweb<br>
&gt;&gt;&gt; depends. These collations include one (utf8_bin) that does &quot;level <br>
&gt;&gt;&gt; 1&quot;, and<br>
&gt;&gt;&gt; one (utf8_general_ci) which does &quot;level 4&quot;, but nothing that does <br>
&gt;&gt;&gt; &quot;level<br>
&gt;&gt;&gt; 3&quot; or &quot;level 2&quot;. That was why I was saying I would have to add one <br>
&gt;&gt;&gt; myself.<br>
&gt;&gt;&gt; See:<br>
&gt;&gt;&gt; <a href="http://collation-charts.org/mysql60/mysql604.utf8_general_ci.european.html">
http://collation-charts.org/mysql60/mysql604.utf8_general_ci.european.html</a><br>
&gt;&gt;&gt; (Note that as rotten as MySQL is on this front, so far as I can tell <br>
&gt;&gt;&gt; other<br>
&gt;&gt;&gt; RDBMSs are even worse, as they seem to link collations to OS <br>
&gt;&gt;&gt; locales,<br>
&gt;&gt;&gt; which is the last thing you want in this context)<br>
&gt;&gt;&gt; best<br>
&gt;&gt;&gt; Andrew.<br>
&gt;&gt;&gt; -----Original Message-----<br>
&gt;&gt;&gt; From: cwb-bounces@sslmit.unibo.it <br>
&gt;&gt;&gt; [<a href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>] On<br>
&gt;&gt;&gt; Behalf Of Ciarán Ó Duibhín<br>
&gt;&gt;&gt; Sent: 26 March 2014 18:00<br>
&gt;&gt;&gt; To: Open source development of the Corpus WorkBench<br>
&gt;&gt;&gt; Subject: Re: [CWB] [CQPWeb] diacritics in CQPweb<br>
&gt;&gt;&gt; Apologies if this is not relevant, but I thought that unicode <br>
&gt;&gt;&gt; sorting<br>
&gt;&gt;&gt; recognized four &quot;levels&quot; in comparing two strings:<br>
&gt;&gt;&gt; 1. account is taken of differences in accents, case and specials 2.<br>
&gt;&gt;&gt; account is taken of differences in accents and case, but differences <br>
&gt;&gt;&gt; in<br>
&gt;&gt;&gt; specials are disregarded 3. account is taken of differences in <br>
&gt;&gt;&gt; accents,<br>
&gt;&gt;&gt; but differences in case and specials are disregarded 4. differences <br>
&gt;&gt;&gt; in<br>
&gt;&gt;&gt; accents, case and specials are disregarded<br>
&gt;&gt;&gt; In these terms, what Michel wants is collation at level 3, but is <br>
&gt;&gt;&gt; getting<br>
&gt;&gt;&gt; collation at level 4.<br>
&gt;&gt;&gt; If the CWB developers have access to a &quot;standard&quot; collation <br>
&gt;&gt;&gt; procedure, it<br>
&gt;&gt;&gt; should take care of this requirement automatically, with the <br>
&gt;&gt;&gt; additional<br>
&gt;&gt;&gt; benefit that efficiency considerations can be left to the <br>
&gt;&gt;&gt; implementors of<br>
&gt;&gt;&gt; the standard procedure!<br>
&gt;&gt;&gt; (Specials are non-alphabetic characters, including punctuation, <br>
&gt;&gt;&gt; which may<br>
&gt;&gt;&gt; be present in the strings.)<br>
&gt;&gt;&gt; For more info, see <a href="http://en.wikipedia.org/wiki/ISO_14651">http://en.wikipedia.org/wiki/ISO_14651</a> or<br>
&gt;&gt;&gt; <a href="http://www.unicode.org/reports/tr10/">http://www.unicode.org/reports/tr10/</a><br>
&gt;&gt;&gt; I hope this is helpful,<br>
&gt;&gt;&gt; Ciarán Ó Duibhín.<br>
&gt;&gt;&gt; ----- Original Message -----<br>
&gt;&gt;&gt; From: &quot;Hardie, Andrew&quot; &lt;a.hardie@lancaster.ac.uk&gt;<br>
&gt;&gt;&gt; To: &quot;Open source development of the Corpus WorkBench&quot;<br>
&gt;&gt;&gt; &lt;cwb@sslmit.unibo.it&gt;<br>
&gt;&gt;&gt; Sent: Wednesday, March 26, 2014 5:16 PM<br>
&gt;&gt;&gt; Subject: Re: [CWB] [CQPWeb] diacritics in CQPweb<br>
&gt;&gt;&gt; <br>
&gt;&gt;&gt; <br>
&gt;&gt;&gt;&gt; Unfortunately, at the moment as you say there is a choice between <br>
&gt;&gt;&gt;&gt; CS/DS<br>
&gt;&gt;&gt;&gt; and CI/DI, while for most linguistic purposes we want CI/DS. One of <br>
&gt;&gt;&gt;&gt; my<br>
&gt;&gt;&gt;&gt; planned developments is to introduce custom collations that can be <br>
&gt;&gt;&gt;&gt; loaded<br>
&gt;&gt;&gt;&gt; into MySQL that will allow CI/DS because I want it too! ( I think I <br>
&gt;&gt;&gt;&gt; would<br>
&gt;&gt;&gt;&gt; have to define one from scratch based on automated mapping from the<br>
&gt;&gt;&gt;&gt; Unicode standard datadase UNIDATA.TXT).<br>
&gt;&gt;&gt;&gt; However, I need to find out first how this will affect performance. <br>
&gt;&gt;&gt;&gt; I<br>
&gt;&gt;&gt;&gt; have<br>
&gt;&gt;&gt;&gt; tried to find out whether using a custom, rather than built-in, <br>
&gt;&gt;&gt;&gt; collation<br>
&gt;&gt;&gt;&gt; affects MySQL performance (and also what effect the complexity of <br>
&gt;&gt;&gt;&gt; the<br>
&gt;&gt;&gt;&gt; custom collation has), but cannot find much online about it. So I <br>
&gt;&gt;&gt;&gt; will<br>
&gt;&gt;&gt;&gt; need to take time to do some empirical experimentation at some <br>
&gt;&gt;&gt;&gt; point.<br>
&gt;&gt;&gt;&gt; So ---- if anyone has any info or experience about MySQL custom<br>
&gt;&gt;&gt;&gt; collations<br>
&gt;&gt;&gt;&gt; that would be very useful.<br>
&gt;&gt;&gt;&gt; best<br>
&gt;&gt;&gt;&gt; Andrew.<br>
&gt;&gt;&gt;&gt; -----Original Message-----<br>
&gt;&gt;&gt;&gt; From: cwb-bounces@sslmit.unibo.it <br>
&gt;&gt;&gt;&gt; [<a href="mailto:cwb-bounces@sslmit.unibo.it">mailto:cwb-bounces@sslmit.unibo.it</a>] On<br>
&gt;&gt;&gt;&gt; Behalf Of genereux<br>
&gt;&gt;&gt;&gt; Sent: 26 March 2014 10:32<br>
&gt;&gt;&gt;&gt; To: Open source development of the Corpus WorkBench<br>
&gt;&gt;&gt;&gt; Subject: [CWB] [CQPWeb] diacritics in CQPweb<br>
&gt;&gt;&gt;&gt; Hi,<br>
&gt;&gt;&gt;&gt; Here's an issue concerning diacritics in CQPweb.<br>
&gt;&gt;&gt;&gt; CQPweb stores frequency lists in mysql. Since there are no<br>
&gt;&gt;&gt;&gt; case-insensitive diacritic-sensitive collations currently available <br>
&gt;&gt;&gt;&gt; in<br>
&gt;&gt;&gt;&gt; mysql, a frequency list merges tokens/characters as follows:<br>
&gt;&gt;&gt;&gt; [e,é,É,Ê,E, ...] [o,ò,ó,Ô,O, ...] ...<br>
&gt;&gt;&gt;&gt; What we want is:<br>
&gt;&gt;&gt;&gt; [e,E] [é,É] [Ê,ê] [o,O] [ò,Ò] [ó,Ó] ...<br>
&gt;&gt;&gt;&gt; We can take care of the case-insensitivity programmatically outside<br>
&gt;&gt;&gt;&gt; CQPweb/mysql by turning to lowercase records before they enter the <br>
&gt;&gt;&gt;&gt; DB<br>
&gt;&gt;&gt;&gt; table. Tables holding frequency lists are then declared as 'collate<br>
&gt;&gt;&gt;&gt; utf8_bin', which takes care of diacritic-sensitivity.<br>
&gt;&gt;&gt;&gt; I am wondering if people involved with corpora for languages other <br>
&gt;&gt;&gt;&gt; than<br>
&gt;&gt;&gt;&gt; English have dealt with this issue in some other (more elegant) <br>
&gt;&gt;&gt;&gt; way?<br>
&gt;&gt;&gt;&gt; Thank you,<br>
&gt;&gt;&gt;&gt; Michel Généreux<br>
&gt;&gt;&gt;&gt; <br>
&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt; CWB mailing list<br>
&gt;&gt;&gt;&gt; CWB@sslmit.unibo.it<br>
&gt;&gt;&gt;&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
&gt;&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt;&gt; CWB mailing list<br>
&gt;&gt;&gt;&gt; CWB@sslmit.unibo.it<br>
&gt;&gt;&gt;&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
&gt;&gt;&gt;&gt; <br>
&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt; CWB mailing list<br>
&gt;&gt;&gt; CWB@sslmit.unibo.it<br>
&gt;&gt;&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
&gt;&gt;&gt; _______________________________________________<br>
&gt;&gt;&gt; CWB mailing list<br>
&gt;&gt;&gt; CWB@sslmit.unibo.it<br>
&gt;&gt;&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
&gt;&gt;&gt; <br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; CWB mailing list<br>
&gt;&gt; CWB@sslmit.unibo.it<br>
&gt;&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
&gt;&gt; _______________________________________________<br>
&gt;&gt; CWB mailing list<br>
&gt;&gt; CWB@sslmit.unibo.it<br>
&gt;&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
&gt; _______________________________________________<br>
&gt; CWB mailing list<br>
&gt; CWB@sslmit.unibo.it<br>
&gt; <a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
_______________________________________________<br>
CWB mailing list<br>
CWB@sslmit.unibo.it<br>
<a href="http://devel.sslmit.unibo.it/mailman/listinfo/cwb">http://devel.sslmit.unibo.it/mailman/listinfo/cwb</a><br>
</div>
</span></font>
</body>
</html>