projects/dil: trunk/src/dil/lexer/Lexer.d comparison

comparison trunk/src/dil/lexer/Lexer.d @ 789:c1d5cfd7aa44

Implemented string literal conversion. Removed two MID messages. Added MSG.InvalidUTF8SequenceInString. Added toUTF16() and toUTF32(). Fixed escape sequences. Added formatBytes() and findInvalidUTF8Sequence().

author	Aziz K?ksal <aziz.koeksal@gmail.com>
date	Mon, 25 Feb 2008 02:56:22 +0100
parents	580d4ca9f1ff
children	cf2ad5df025c

comparison

equal deleted inserted replaced

-:139c9a6a39a8
+:c1d5cfd7aa44
 return scanNormalStringLiteral(t);
 case '\\':
 char[] buffer;
 do
 {
-c = scanEscapeSequence();
+bool isBinary;
-if (isascii(c))
+c = scanEscapeSequence(isBinary);
+if (isascii(c) || isBinary)
 buffer ~= c;
 else
 encodeUTF8(buffer, c);
 } while (*p == '\\')
 buffer ~= 0;
 return scanNormalStringLiteral(t);
 case '\\':
 char[] buffer;
 do
 {
-c = scanEscapeSequence();
+bool isBinary;
-if (isascii(c))
+c = scanEscapeSequence(isBinary);
+if (isascii(c) || isBinary)
 buffer ~= c;
 else
 encodeUTF8(buffer, c);
 } while (*p == '\\')
 buffer ~= 0;
 Lreturn:
 t.str = buffer ~ '\0';
 t.end = p;
 return;
 case '\\':
-c = scanEscapeSequence();
+bool isBinary;
+c = scanEscapeSequence(isBinary);
 --p;
-if (isascii(c))
+if (isascii(c) || isBinary)
-break;
+buffer ~= c;
-encodeUTF8(buffer, c);
+else
+encodeUTF8(buffer, c);
 continue;
 case '\r':
 if (p[1] == '\n')
 ++p;
 case '\n':
 ++p;
 t.kind = TOK.CharLiteral;
 switch (*p)
 {
 case '\\':
-t.dchar_ = scanEscapeSequence();
+bool notused;
+t.dchar_ = scanEscapeSequence(notused);
 break;
 case '\'':
 error(t.start, MID.EmptyCharacterLiteral);
 break;
 default:
 --inTokenString;
 }
 } // version(D2)
-dchar scanEscapeSequence()
+dchar scanEscapeSequence(ref bool isBinary)
 out(result)
 { assert(isValidChar(result)); }
 body
 {
 assert(*p == '\\');
 uint digits = 2;
 switch (*p)
 {
 case 'x':
+isBinary = true;
+case_Unicode:
 assert(c == 0);
+assert(digits == 2 || digits == 4 || digits == 8);
 while (1)
 {
 ++p;
 if (ishexad(*p))
 {
 else if (*p <= 'F')
 c += *p - 'A' + 10;
 else
 c += *p - 'a' + 10;
-if (!--digits)
+if (--digits == 0)
 {
 ++p;
 if (isValidChar(c))
 return c; // Return valid escape value.
-error(sequenceStart, MID.InvalidUnicodeEscapeSequence, sequenceStart[0..p-sequenceStart]);
+error(sequenceStart, MID.InvalidUnicodeEscapeSequence,
+sequenceStart[0..p-sequenceStart]);
 break;
 }
 continue;
 }
-error(sequenceStart, MID.InsufficientHexDigits);
+error(sequenceStart, MID.InsufficientHexDigits,
+sequenceStart[0..p-sequenceStart]);
 break;
 }
 break;
 case 'u':
 digits = 4;
-goto case 'x';
+goto case_Unicode;
 case 'U':
 digits = 8;
-goto case 'x';
+goto case_Unicode;
 default:
 if (isoctal(*p))
 {
+isBinary = true;
 assert(c == 0);
 c += *p - '0';
 ++p;
 if (!isoctal(*p))
 return c;
 if (!isoctal(*p))
 return c;
 c *= 8;
 c += *p - '0';
 ++p;
-return c; // Return valid escape value.
+return c & 0xFF; // Return valid escape value.
 }
 else if(*p == '&')
 {
 if (isalpha(*++p))
 {
 ++p;
 --p;
 assert(!isTrailByte(p[1]));
 Lerr2:
 d = REPLACEMENT_CHAR;
-error(this.p, MID.InvalidUTF8Sequence);
+error(this.p, MID.InvalidUTF8Sequence, formatBytes(this.p, p));
 }
 this.p = p;
 return d;
 }
 str ~= b[0..6];
 }
 +/
 else
 assert(0);
+}
+/// Formats the bytes between start and end.
+/// Returns: e.g.: abc -> \x61\x62\x63
+static char[] formatBytes(char* start, char* end)
+{
+auto strLen = end-start;
+const formatLen = `\xXX`.length;
+char[] result = new char[strLen*formatLen]; // Reserve space.
+result.length = 0;
+foreach (c; cast(ubyte[])start[0..strLen])
+result ~= Format("\\x{:X}", c);
+return result;
+}
+/// Searches for an invalid UTF-8 sequence in str.
+/// Returns: a formatted string of the invalid sequence (e.g. \xC0\x80).
+static string findInvalidUTF8Sequence(string str)
+{
+char* p = str.ptr, end = p + str.length;
+while (p < end)
+{
+if (decode(p, end) == ERROR_CHAR)
+{
+auto begin = p;
+// Skip trail-bytes.
+while (++p < end && isTrailByte(*p))
+{}
+return Lexer.formatBytes(begin, p);
+}
+}
+assert(p == end);
+return "";
 }
 }
 unittest
 {

Mercurial > projects > dil

comparison trunk/src/dil/lexer/Lexer.d @ 789:c1d5cfd7aa44