Воскресенье, 28.04.2024, 15:03
Вы вошли как Гость | Группа "Гости"Приветствую Вас Гость | RSS
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Модератор форума: Cost  
Форум » Завалинка » Понемногу обо всем » Русский для ботов и юзеров (Обсуждение информационного поля русского языка в интернете)
Русский для ботов и юзеров
ASTДата: Среда, 02.03.2011, 12:57 | Сообщение # 1
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Русский 6-й язык по количеству статей в вики.
Русский на первом месте по активности в социальных сетях и форумах.
На сколько важно обязательно русифицировать новый софт и сетевые стартапы?

Рейтинг языков. _http://www.ethnologue.org/ethno_docs/distribution.asp?by=size_
 
CostДата: Среда, 30.03.2011, 17:01 | Сообщение # 46
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Для эксперимента нужно искать 3-х язычных граждан, чтобы проверить.
Но они конечно развыступаются (они же как раз будут из представителей этих малых народов) и наговорят, что они нашлепают в сети статей с помощью ботов транслейторов для любого малого языка.
 
googleduckДата: Среда, 30.03.2011, 18:08 | Сообщение # 47
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Ага, ну так главное же термины, термины и ещё раз термины. Их уместность и правила употребления. А это нарабатывается со временем и количеством, т.е. исторически и статистически. А это возможно только среди широкого круга пользователей.
Нужно же ещё решить какие слова удобнее дословно перевести, а какие напрямую заимствовать. Это определяется только сообществом носителей.
Был случай, когда неподготовленный переводчик пытался перевести такие слова, как праймер, сайдинг и локус. И никак не мог в голове подобрать подходящий эквивалент. А это конечно можно было - соответственно - первичник, боковушник и местовик. Как у Ломоносова был спор то ли использовать термин колоземица, то ли атмосфера.
Вот и бот от транслейтора он вам напереводит. А вы потом отраслевому специалисту покажете этот текст с колоземицей, первичниками, боковушниками и местовиками. А он ничего не поймет и скажет, что этот текст ни из его отрасли знаний.
 
ASTДата: Среда, 30.03.2011, 18:47 | Сообщение # 48
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Уткогугл пережувал пережеванное! В английском так и звучит каряво как ты переводишь на русский. И они вынужденны пользоваться новыми значениями старых слов потому, что они двигают науку и технологию. Если бы двигали арабы, то мир наполнился бы их словами типа "барабан" и др. Слово "Спутник" же стало интернационализмом во всех языках мира! А "Робот" от славянского "Работа"? Так что русским надо жопу поднять и начать работать и изобретать и наполнять языки мира своими словами.
 
CostДата: Воскресенье, 03.04.2011, 13:54 | Сообщение # 49
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Куда уж тут обогащать.
...в Казахском НИИ языка начиная с 1937 года накопили картотеку, состоящую из 2 миллионов 400 тысяч казахских слов. Для сравнения: английский словарь – примерно 240 тысяч слов.
_http://www.nashaagasha.org/education/pochemu-etnicheskie-kazaxi-ne-izuchayut-svoj-yazyk/_
Это при наличии 6-8 миллионов носителей.
То ли английский язык по сравнению с казахским реально недоразвитый, то ли Казахские НИИ работают круче всех в мире.
Сколько не искал подобную информацию по русскому языку - только какие то скудные ссылки про 550 тысяч слов в русском языке. Может пора начинать собирать коллекцию???
 
ASTДата: Воскресенье, 03.04.2011, 18:38 | Сообщение # 50
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Это черный пиар. Какие могут быть миллионы слов когда они придумывают новые основываясь на старых определениях. Например новое слово "душ" обозначили как "мочащийся стоя"
 
googleduckДата: Вторник, 05.04.2011, 10:17 | Сообщение # 51
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Это просто признак того, что национальный язык ещё просто не сформировался (как впрочем и сама нация). Множество разношерстных племён родственной языковой группы случайно оказалось на искусственно назначенной административной территории. Вот и существует великое множество наречий и диалектов якобы одного (а по сути разных языков) языков. Отсюда и возможность создавать безразмерные коллекции. Когда одному и тому же предмету соответствует несколько десятков названий сходного звучания, но разного грамматического написания. Это ведь не синонимы. Это разные написания одного и того же слова. Так, что это не количество слов в общеупотребительном языке, а именно коллекция.
А языком должны пользоваться люди. Все термины и слова, а также правила их употребления определяются в течение длительного времени и определенным множеством носителей. Слово, которое некий аксакал пару раз употребил в отдаленном ауле, при этом люди из другого аула его не поняли годится только что для коллекции.

Добавлено (05.04.2011, 11:17)
---------------------------------------------
В этой связи можно посмотреть на статистику использования неких специальных научных или технических терминов. Для какого-либо узко специального термина в английском языке количество носителей (людей, часто использующих данный термин при написании текстов и в разговорной речи) может измеряться сотнями или десятками тысяч; в русском языке -это количество для данного термина уже будет измеряться тысячами и сотнями, а в казахском языке - это уже будут десятки и единицы. Больше по данному направлению в Казахстане просто нет узких специалистов. Не удивительно с таким количеством населения. Ну и как 5-10 человек могут статистически развить правильное употребление конкретного термина. При таком количестве его не имеет смысла даже переводить. Однако наши языковые "дизайнеры" готовы перевести всё и вся. Если не перевести так в элементарных словах подпортить 1-2 буквы. Вроде бы тоже слово, ан нет уже исковеркано, и, стало быть адаптировано для нужд нового "могучего" языка. Они, эти "виртуальные языковые дизайнеры" не язык создают, а просто коллекцию пополняют.

 
ASTДата: Вторник, 05.04.2011, 22:33 | Сообщение # 52
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Гуглоутка провел полное расследование тянущее на PhD по лингвистике. Даже добавить нечего. Кстати в одном спутниковом форуме обсуждался новый закон о телевидении в Казахстане где иностранные компании обяжут переводить все программы на каз. яз. Но выяснилось, что им с переводом выгодно заходить на рынок какой либо страны если число носителей как минимум 25 млн. человек!!! Например в Греции (11,306,183) только титры, а в Польше (38 192 000) уже перевод. В тоже время на Украине (45 778 500) не все каналы переводятся из-за почти 100% знания русского. И ради 7 млн. казахов Дискавери заморачиваться не будут. Кто хочет тот на русском посмотрит, да и вряд ли этот канал будет интересен 10% титульных.
 
googleduckДата: Пятница, 08.04.2011, 12:09 | Сообщение # 53
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Quote (googleduck)
А вот я поэкспериментирую.
Вот первая строчка американской декларации о независимости:

We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness.

Теперь варианты:
Comarade Google:Мы считаем эти истины являются самоочевидными, что все люди созданы равными, что они наделены их Творцом определенными неотчуждаемыми правами, к числу которых относятся жизнь, свобода и стремление к счастью.

Ms.Yahoo:Мы держим эти правды для того чтобы быть самоочевидны, т все люди созданный равный, то они обеспечены доходом их создателем с некоторыми unalienable правами, которые среди этих жизнь, вольность и преследование счастья.

Товарищ Яндекс:Мы держим эти истины являются самоочевидными, что все люди созданы равными, что они наделены создателем определенными неотъемлемыми правами, среди которых Жизнь, Свобода и стремление к счастью.

Продолжаем эксперимент. Тот же текст, те же боты плюс аналогичные боты от Бинг и Промпта:
И так! Мистер Bing:
Мы считаем эти истины являются самоочевидными, что все люди созданы равными, что они наделены их Творцом определенными неотчуждаемыми правами, которые среди них жизнь, свободу и стремление к счастью.

Гражданин Промпт;
Мы считаем, что эти истины самоочевидны, что все мужчины созданы равные, что они обеспечены их Создателем с определенными неотъемлемыми Правами, которые среди них являются Жизнью, Свободой и преследованием Счастья.

 
ASTДата: Пятница, 08.04.2011, 12:25 | Сообщение # 54
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
В сети полно статей именно такого коряво-беспадежно-склоняемого содержания. Промт реально разочаровал. А еще денег просит за лицензии.
 
CostДата: Воскресенье, 10.04.2011, 12:42 | Сообщение # 55
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
А можно продолжить забаву. Вот тот же результат от украинских хлопцеботов. Онлайн перевод на i.ua.

Quote (googleduck)
We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness.

Мы держим эту правду, которая очевидна, что все мужчины созданы равняются, что их завещает их Создатель с определенными неотъемлемыми Правами, что среди них - Жизнь, Свобода и преследование Счастья.

Хлопцеботам видать ещё надыть подразвиваться.

По предыдущему Mr.Bing так подозрительно подражал Гуглу до середины предложения, а потом вдруг встал на самостоятельный путь.

Промпт действительно разочаровал. При том, что они заявляют, что у них технология перевода основана на предварительном семантическом анализе текста согласно правилам употребления слов и словосочетаний.
Гугл тот тупо основывается на статистике и всё.
Почему чистая статистика оказалась более успешной?

 
ASTДата: Воскресенье, 10.04.2011, 12:54 | Сообщение # 56
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
А теперь давай попробуем русский лучший отредактированный перевод обратно перевести. Посмотрим насколько английский более прост в грамматике как говорят. cool
 
CostДата: Вторник, 12.04.2011, 14:58 | Сообщение # 57
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Ну что же - эксперимент есть эксперимент.
Только придётся переводить два текста.

Первый - вариант, который нам создал Comarade Google:
"Мы считаем эти истины являются самоочевидными, что все люди созданы равными, что они наделены их Творцом определенными неотчуждаемыми правами, к числу которых относятся жизнь, свобода и стремление к счастью".

Второй - литературный текст в переводе О.А.Жидкова
Декларация независимости. Соединенные Штаты Америки: Конституция и законодательство. Под ред. О.А.Жидкова. Перевод О.А.Жидкова. М.: Прогресс, Универс, 1993.
_http://www.hist.msu.ru/ER/Etext/indpndnc.htm_:
"Мы исходим из той самоочевидной истины, что все люди созданы
равными и наделены их Творцом определенными неотчуждаемыми
правами, к числу которых относятся жизнь, свобода и стремление к
счастью".
 
CostДата: Вторник, 12.04.2011, 15:04 | Сообщение # 58
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Переводы:
1)We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the Pursuit of Happiness.
2)We believe that self-evident truth that all men are created
equal and endowed by their Creator with certain unalienable
Rights, that among these are Life, Liberty and the pursuit
Fortunately.
Оригинал:
We hold these truths to be self-evident, that all men are created equal, that they are endowed by their Creator with certain unalienable Rights, that among these are Life, Liberty and the pursuit of Happiness.


Сообщение отредактировал Cost - Вторник, 12.04.2011, 15:12
 
CostДата: Вторник, 12.04.2011, 15:17 | Сообщение # 59
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
И так мы видим, что Comarade Google возвращает со своего собственного перевода полностью идентичный оригиналу текст. А вот из литературного человеческого перевода он уже создаёт нечто совсем другое.
Налицо конфликт сознания ботов и переводчиков из клана живых.


Сообщение отредактировал Cost - Вторник, 12.04.2011, 16:15
 
CostДата: Вторник, 12.04.2011, 16:22 | Сообщение # 60
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Хе-хе. Так оказывается один в один свой собственный перевод возвращает обратно на английский только Гугл.
Яндекс уже улучшает текст, оставляя его все же близким к оригиналу. А, что касается Мисс Яхуу и хлопцебота от уашников, так они возвращают текст в неузнаваемой форме.
Ай да боты, ай да творческий подход.
Жалко сейчас трафика. Если будет халявный интернет, приведу все тесты от всех перечисленных ботов с анализом их схожести с помощью какого-нибудь плагиатфайндера.
 
Форум » Завалинка » Понемногу обо всем » Русский для ботов и юзеров (Обсуждение информационного поля русского языка в интернете)
Поиск: