Пятница, 29.03.2024, 11:36
Вы вошли как Гость | Группа "Гости"Приветствую Вас Гость | RSS
[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]
Модератор форума: Cost  
Форум » Завалинка » Понемногу обо всем » Русский для ботов и юзеров (Обсуждение информационного поля русского языка в интернете)
Русский для ботов и юзеров
ASTДата: Среда, 02.03.2011, 12:57 | Сообщение # 1
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Русский 6-й язык по количеству статей в вики.
Русский на первом месте по активности в социальных сетях и форумах.
На сколько важно обязательно русифицировать новый софт и сетевые стартапы?

Рейтинг языков. _http://www.ethnologue.org/ethno_docs/distribution.asp?by=size_
 
googleduckДата: Вторник, 12.04.2011, 18:38 | Сообщение # 61
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Quote (Cost)
И так мы видим, что Comarade Google возвращает со своего собственного перевода полностью идентичный оригиналу текст. А вот из литературного человеческого перевода он уже создаёт нечто совсем другое.
Налицо конфликт сознания ботов и переводчиков из клана живых.

Может быть у Гугла неограниченный ресурс памяти и он помнит все варианты обращений и запросов, а у других таких возможностей нет. Вот они и вынуждены больше думать и применять замысловатые алгоритмы.
Т.е. всё из-за так сказать "ботумного склероза".

 
ASTДата: Четверг, 14.04.2011, 18:09 | Сообщение # 62
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Quote (googleduck)
Может быть у Гугла неограниченный ресурс памяти и он помнит все варианты обращений и запросов,

Наверняка это правтльное объяснение и, как вариант, он немного переводит и ищет подобную оригинальную фразу и ее отдает абоненту. Это надо проверить на фразе собственного сочинения неизвестной в сетке.
 
googleduckДата: Пятница, 15.04.2011, 17:38 | Сообщение # 63
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Интересное определение по русскому языку дают в Вики;
Ру́сский язы́к — один из восточнославянских языков, один из крупнейших языков мира, национальный язык русского народа. Является самым распространённым из славянских языков и самым распространённым языком Европы как географически, так и по числу носителей языка как родного (хотя также значительная и географически бо́льшая часть русского языкового ареала находится в Азии).
Тут
_http://ru.wikipedia.org/wiki/%D0%A0%D1%83%D1%81%D1%81%D0%BA%D0%B8%D0%B9_%D1%8F%D0%B7%D1%8B%D0%BA#.D0.9F.D0.BE.D0.BB.D0.BE.D0.B6.D0.B5.D0.BD.D0.B8.D0.B5_.D1.80.D1.83.D1.8 1.D1.81.D0.BA.D0.BE.D0.B3.D0.BE_.D1.8F.D0.B7.D1.8B.D0.BA.D0.B0_.D0.B2_.D0.BC.D0.B8.D1.80.D0.B5_

Добавлено (15.04.2011, 18:36)
---------------------------------------------
И еще от русского языка произошла куча диалектов:
Русский язык послужил основой для многих социолектов и смешанных языков:

* Феня — криминальное арго (тайный язык) с русской грамматикой, но своеобразной лексикой.
* Суржик — смешанная речь, распространённая на территории современной Украины (и в пограничных с ней районах России[источник не указан 46 дней]) как в городской, так и особенно в сельской местности с русско-украинской лексикой и украинской фонетикой и в меньшей степени грамматикой, отличная как от литературного русского (фонетикой), так и литературного украинского языков (лексикой).
* Трасянка — смешанная речь в Белоруссии, образованная по типу суржика с преимущественно белорусской грамматикой и фонетикой, но с русским лексическим влиянием.
* Русская речь Германии, псевдо-пиджин русского и немецкого языков.
* Рунглийский язык (рунглиш) — русская речь англоязычных стран, псевдопиджин русского и английского языков.
* Руссенорск — настоящий пиджин, ныне вымерший, сложившийся на основе норвежской грамматики и русской лексики и исполнявший роль лингва франка на Кольском полуострове Российской империи.
* Кяхтинский язык — вымерший русско-китайский пиджин, сложившийся, преимущественно, на основе русской лексики и китайской грамматики в пограничных с Китаем районах Забайкалья и Приамурья.
* Говорка — таймырский пиджин, служивший средством общения русских, нганасанов, ненцев и энцев.
* Русскопонтийский — псевдопиджин русскоязычного населения современной Греции.
* Алеутско-медновский язык — смешанный русско-алеутский язык алеутов острова Медный.
* В Казахстане, Эстонии и т. п. со времён Советского Союза, наблюдается смешение кодов: спонтанное проникновение слов русского языка в речь на других языках (не заимствование). Русская ненормативная лексика и «давай» вместо «до свидания» в Эстонском языке. Такое встречается не только среди нацменьшинств (например, корейцев и немцев), но и в разговорной речи казахов, живущих в городах. Возникающие языковые системы не считаются особыми языками и специального названия не имеют.
* Характерные особенности имеет русский язык Причерноморья особенно русский язык Одессы, ставший предметом специальных исследований[19] и отразившийся в фельетонах и художественной литературе (например, у В. М. Дорошевича, И. Э. Бабеля, Ильфа и Петрова,О. И. Губаря). Для него характерно влияние украинских диалектов, в речи евреев — идиш, специфические иностранные заимствования, фонетика.
* «Олбанский язык» («Падонкаффский» сленг) — распространившийся в Рунете в начале XXI века стиль употребления русского языка с фонетически почти верным, но грамматически нарочито неправильным написанием слов (т. н. эрративом)

Добавлено (15.04.2011, 18:38)
---------------------------------------------
И ещё статистика по пользователям:
В социологическом исследовании Института Гэллапа (Gallup, Inc), посвящённом отношению к русскому языку в постсоветских государствах, 92 % населения в Белоруссии, 83 % на Украине, 68 % в Казахстане и 38 % в Киргизии, выбрали русский язык для заполнения анкеты при проведении опроса. Институт обозначил этот раздел исследования как «Russian as the Mother Tongue» (Русский язык как родной язык).
 
CostДата: Суббота, 16.04.2011, 15:17 | Сообщение # 64
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Оказывается у русского языка множество "дочек". Для особых специфических носителей. Плюс еще русские боты. Вряд ли боты с суржиком и тросянкой получат широкое распростронение. Но вот рунглиш - это явно язык многих русских ботов да и почти всего современного софта, за исключением софта для соток и бытовой техники. Там в меню явная кяхта. И судя по всему у этой кяхты большое будущее. А еще пишут, что кяхта вымерший диалект.
 
CostДата: Суббота, 16.04.2011, 15:44 | Сообщение # 65
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Помимо переводчиков есть еще такие полезные сервисы, как онлайн распознавание текста:
FineReader Online - для 37 языков, включая русский язык.
_http://finereader.abbyyonline.com/_
ocrNow! - для 16 языков, включая русский язык.
_https://my.ocrnow.com/_
OnlineOCR.ru - для 28 языков, включая русский язык.
_http://www.onlineocr.ru/_
NewOCR.com - для 29 языков, включая русский язык.
_OnlineOCR.ru_
Free-OCR.com - для 29 языков, включая русский язык.
_http://www.free-ocr.com/_
И тут боты нам подтверждают, что человечеству достаточно 15-40 языков.
 
CostДата: Воскресенье, 17.04.2011, 08:43 | Сообщение # 66
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Да, для справки. Кяхта - это был такой древний городишка на границе России и Монголии, где одно время находилась главная российско-китайская барахолка. вот там и выработался этот русско-китайский торговый слэнг. Он наверно самовоспроизводится на любой китайской барохолке и сейчас во всех наших городах.

Да, а рунглиш и олбанский очень широка сейчас обитают на форумах. При чем, если форум для каких-либо приколистов, то там олбанский. А вот, если форум IT-шников или программеров, то уж это рунглиш - цветет и пахнет.

 
CostДата: Среда, 27.04.2011, 00:15 | Сообщение # 67
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Вот интересный график по цитированию термина "русский язык" в книгах, представленных в библиотеках Гугла за последние 200 лет



Сообщение отредактировал Cost - Среда, 27.04.2011, 13:48
 
ASTДата: Среда, 27.04.2011, 21:34 | Сообщение # 68
Генералиссимус
Группа: Администраторы
Сообщений: 1424
Репутация: 7
Статус: Offline
Какие 200 лет Гугла? Последние сообщения не видны!!!
 
googleduckДата: Пятница, 29.04.2011, 16:43 | Сообщение # 69
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
А что проценты такие дробные на графике?
 
CostДата: Суббота, 30.04.2011, 17:01 | Сообщение # 70
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Quote (AST)
Какие 200 лет Гугла?

Так в библиотеку Гугла попадают разные книги. В том числе и те, что писали на много лет раньше, чем Гугл появился.

Quote (googleduck)
А что проценты такие дробные на графике?

Так если в русском языке 600 тысяч слов, то словосочетаний из двух слов может быть несколько миллионов. Так что десятитысячные доли процента это довольно большие цифры. Это там у разработчиков Гугла не хватило ума какие-нибудь особые единицы придумать. Этакие словарные промилле.

 
CostДата: Суббота, 30.04.2011, 18:16 | Сообщение # 71
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Кстати сервис от Google Ngram Viewer.
_http://ngrams.googlelabs.com_

Вот еще такой же график только по термину "русский язык" на английском в англоязычных книгах.


Сообщение отредактировал Cost - Понедельник, 02.05.2011, 15:01
 
googleduckДата: Понедельник, 02.05.2011, 23:23 | Сообщение # 72
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
Ну вот и видно рост национального самосознания у русскоязычных (такая вот у нас национальность - русскоязычные).
А в англоязычном мире пик цитирования термина Russian language (русский язык) приходится на эпоху шпиономании, холодной войны и космической гонки.
Нужно срочно что-нибудь замутить в космосе, чтобы поднять интерес к русскому языку у американцев.
При этом никакая горбачевская "гласность" и "перестройка" на графике особо не отметились.

Добавлено (03.05.2011, 00:23)
---------------------------------------------
Твиттер стал работать на русском языке
_http://www.gazeta.ru/business/2011/04/27/kz_3596133.shtml_
Сайт микроблогов Twitter запустил версию на русском языке. Со вторника помимо английского, французского, немецкого, испанского, итальянского, японского и корейского меню у пользователей появилась возможность вести страницу по-русски и по-турецки.


Сообщение отредактировал googleduck - Понедельник, 02.05.2011, 23:21
 
CostДата: Понедельник, 02.05.2011, 23:27 | Сообщение # 73
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Quote (googleduck)
А в англоязычном мире пик цитирования термина Russian language (русский язык) приходится на эпоху шпиономании, холодной войны и космической гонки.
Нужно срочно что-нибудь замутить в космосе, чтобы поднять интерес к русскому языку у американцев.
При этом никакая горбачевская "гласность" и "перестройка" на графике особо не отметились.

Семнадцатый год тоже отметился нехилым пиком. Но вот космосу Великая Октябрьская все таки уступила.
 
CostДата: Вторник, 03.05.2011, 22:36 | Сообщение # 74
Генералиссимус
Группа: Модераторы
Сообщений: 3651
Репутация: 9
Статус: Offline
Голосовой поиск Гугл для мобильных устройств доступен только для одиннадцати языков. Наряду с русским языком он еще также работает на английском, китайском, корейском, японском, французском, немецком, итальянском, испанском, польском и чешском.
Голосовой поиск Google - это одна из наиболее перспективных технологий, обеспечивающих успешное развитие интернета, в частности мобильного интернета, т.е. массового доступа в интернет с помощью мобильных устройств - смартфонов, айфонов, коммуникаторов, нетбуков, айпадов и др.
Голосовой поиск позволяет существенно быстрее разместить в интернете запрос с помощью голоса, чем с клавиатуры, тем более, когда она имеет экзотический вид, как у смартфонов и айфонов.


Сообщение отредактировал Cost - Вторник, 03.05.2011, 22:45
 
googleduckДата: Среда, 04.05.2011, 16:53 | Сообщение # 75
Генерал-лейтенант
Группа: Друзья
Сообщений: 735
Репутация: 3
Статус: Offline
А будет на этот голосовой поиск Гугла голосовая выдача? Ну чтобы шариться в интернете чисто по ориентации в наушниках. При этом не щуриться в маленький монитор. В общем - свободные глаза - следишь за дорогой.
 
Форум » Завалинка » Понемногу обо всем » Русский для ботов и юзеров (Обсуждение информационного поля русского языка в интернете)
Поиск: