نوشته هاى روزانه

ندارد

۳ مطلب در مهر ۱۳۹۱ ثبت شده است

۰۷مهر

یه تحقیقی انجام شد یه مدت پیشتر، در رابطه با تحلیل کلمات (و عبارات) به کار رفته در کتاب ها (از سال 1500(!) تا 2008). توی این تحقیق که از طرف محققان گوگل انجام شده کلیه کلمات (و البته عبارات با طول حداکثر 5 کلمه) همه کتاب های موجود (در چند زبان مثل انگلیسی، فرانسوی، آلمانی و... ) توی این بازه ی زمانی توی یه پایگاه داده ثبت شده بود و با استفاده از یه آپلیکیشن می شد دو (یا چند) تا عبارت رو طی این سال ها با هم مقایسه کرد که توی همه کتاب ها چند بار تکرار شده! ایده ساده اما نتیجه عالی... (البته کاری که انجام شده به شخصِ بزرگ بوده، به بزرگی همه کتابهای دنیا! ) اما نتایج خیلی جالبترند:

war - peace

virus - antibiotic

boy - girl

religion - science

و

God

این تحقیق در سال 2010 در مجله Science چاپ شده است. اگر موتورهای جستجو یک چنین کارهایی رو برای وب انجام دهند و البته در اختیار عموم قرار بدهند، نتایج جالبتر هم هست. چون تغییرات در وب شدیدتر است. مثلا یک اتفاق خاص در جهان واقعی (مثلا تغییرات قیمت دلار!) می تونی شدیدا روی به کار بردن این کلمه در صفحات وب تاثیر بگذارد و ... و همچنین میشه از این داده ها برای تصمیم گیری ها و همچنین مقایسه استفاده کرد. مثلا جواب دادن به این سوال که آیفون 5 محبوبتر هست یا گلکسی S3 و ... .

دو تا پروژه که به نظر انجام دادنشون سرشون به تنش میارزه :

1 - انجام دادن این کار برای وبلاگ های فارسی (مثلا blogfa) - میشه به عنوان پروژه کارشناسی یه دانشجوی کامپیوتر تعریفش کرد! :دی

2 - انجام دادن این کار روی lyrics های آهنگ ها از قدیم تا الان. مطمئنا تغییرات درون مایه موسیقی در طی زمان جالب خواهد بود! :عمو سبزی فروش :شجریان :ساسی مانکن :دی


آقاى الف
۰۷مهر

هر سال کلی مقاله توی زمینه های مختلف چاپ میشه، ما که فقط مقاله های رشته خودمون رو می بینیم و به بقیه رشته ها کاری نداریم، تازه توی رشته خودمون فقط یه سری مقاله توی یه سری مباحث خیلی جزیی. اما واقعیت اینه که علم داره با سرعت خیلی زیادی رشد می کنه و حتی شهود اینکه سرعت گسترش علم چقدر هست هم کار سختیه. وقتی علم رو از دور می بینم، یاد یه بادکنک که نه، یه چیز بادی که شکل منظمی هم نداره و هر از چند گاهی یه جاهاییش بزرگ میشه، یه جاهاییش کوچیک میشه، میره تو، میاد بیرون ... میوفتم. یه ماده لزج یه کم سفت در حال انبساط! :ابوعلی سینا  و اما مسئله چیه

دونستن اینه که علم چطوری داره بزرگ میشه، داده باارزشی هست. چطور میشه فهمید، خب طبعا با کارای آماری روی تعداد مقاله ها توی فیلدهای مختلف میشه یه شهودی بدست آورد. مثلا فهمید که 30% مقاله ها حتی یک بار هم cite نمیشن!(این آمار واقعی است) و چیزهایی شبیه این. مثلا اینکه تعداد مقالات منتشر شده در شیمی خیلی بیشتر از سایر رشته های مهندسی هست. اما واسه دیدن رفتار اون ماده لزجه از دور یه چیزایی بیشتر از این لازمه. باید به درون مقاله ها هم سرک کشید. تعداد زیادی از مقاله های منتشر شده، عملا چیز تازه ای ندارن و در واقع باعث انبساط نمیشن! واسه اینکه فهمید چی باعث انبساط علم میشه باید ببینیم یه مقاله چقدر چیز جدید داره، چطوری به چیزای قبلی ربط داره و "چقدر" از هر کدوم از کارای قبلی استفاده کرده و ... . در حال حاضر شبکه ارجاعات مقاله ها در دسترس هست، اما دو تا چیز جاشون خالی:

1 - وزن یال های این شبکه

2 - وزن هر کدوم از راس ها مستقل از راس های مجاورش

با تکنیک های text mining میشه تا حد خوبی این وزن ها رو در آورد. نتیجه ی کار خیلی باید جالب باشه، یه سری نتایج قابل پیش بینی:

 - سرعت انبساط توی زمینه های اجتماعی و جامعه شناسی و اخلاق و دین و ... به مرور زمان کمتر شده (یعنی در واقع نوآوری کمتر شده)، توی مهندسی خیلی زیاده و توی علوم نظری معمولیه. 

 - یه سری قسمت ها انبساط غیرعادی دارن

 - ...




آقاى الف